WO2020119610A1 - 一种用于故障根因的识别方法、装置和设备 - Google Patents

一种用于故障根因的识别方法、装置和设备 Download PDF

Info

Publication number
WO2020119610A1
WO2020119610A1 PCT/CN2019/123841 CN2019123841W WO2020119610A1 WO 2020119610 A1 WO2020119610 A1 WO 2020119610A1 CN 2019123841 W CN2019123841 W CN 2019123841W WO 2020119610 A1 WO2020119610 A1 WO 2020119610A1
Authority
WO
WIPO (PCT)
Prior art keywords
flow
failure
success
target
root cause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/CN2019/123841
Other languages
English (en)
French (fr)
Inventor
司晓云
包德伟
张亮
孙振航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to EP19896877.8A priority Critical patent/EP3883185B1/en
Priority to BR112021011097-6A priority patent/BR112021011097A2/pt
Publication of WO2020119610A1 publication Critical patent/WO2020119610A1/zh
Priority to US17/342,659 priority patent/US11956118B2/en
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Definitions

  • the network it includes: a server and a forwarding node.
  • Various forwarding nodes can be used to access various protocols between the servers, for example: Transmission Control Protocol (English: Transmission Control Protocol, TCP) access, Internet Protocol (English: Internet Protocol (IP: Access) and User Datagram Protocol (English: User Datagram Protocol, UDP: Access) etc.
  • TCP Transmission Control Protocol
  • IP Internet Protocol
  • UDP User Datagram Protocol
  • the specific process includes: the source server sends a TCP connection request to the destination server through each forwarding node, and the destination server sends a TCP response message to the source server through each forwarding node, thereby establishing a TCP access connection.
  • a target success flow that is similar to the failure flow from multiple success flows in the network that is, a target success flow that differs from the failure flow by only a small number of characteristic indicators is determined, and a large number of less successful differences are used in combination
  • the first machine learning model repeatedly trained on the success and failure flows can accurately learn the difference between the characteristic indexes between the failure flow to be analyzed and its related target success flow, thus based on the small number of different characteristic indexes,
  • the target root cause of the failure flow can be accurately output. In this way, the root cause of the failure that causes the connectivity failure of the failure flow is realized. Accurate identification, thereby saving the maintenance cost of the network and improving the user experience of using the network.
  • the streams mentioned in the embodiments of the present application for example: a first failure stream, a first target success stream, multiple first success streams, multiple second failure streams, and a second related to each second failure stream
  • the target success flow and the plurality of second success flows are all TCP flows, IP flows, or UDP flows. It can be understood that the first failure flow, the first target success flow, and multiple first success flows are the same type of flow. Similarly, multiple second failure flows, and a second target related to each second failure flow The success flow and multiple second success flows must also be the same type of flow.
  • the first target success flow and the first failure flow have a high similarity, specifically: the similarity between the first target success flow and the first failure flow is greater than a preset similarity threshold, or, the first target
  • the similarity between the success flow and the first failure flow belongs to the largest N in the similarity between the plurality of first success flows and the first failure flow in the first network, and N is a preset value.
  • an embodiment of the present application provides a computer-readable storage medium, where the computer-readable storage medium stores instructions, and when it runs on a computer, causes the computer to execute the method described in the first aspect.
  • the machine learning model 100 since the information of the flow records generated in the network is complex and numerous, even if the convolutional neural network module 110 and the fully connected module 120 are reasonably constructed, and the training samples are large enough Set training, the machine learning model 100 cannot accurately obtain the true root cause of the failure of the input stream, and the machine learning model 100 is only suitable for identifying the root cause of the failure of the stream generated by the network corresponding to the training sample. It cannot be generalized and applied. Therefore, the machine learning model 100 cannot be widely used online no matter how many trainings are performed regardless of whether the input is all streams in the network or all failed streams in the network.
  • a method for automatically and accurately identifying the root cause of the failure flow failure is provided That is, from a plurality of first success flows of the first network, a first target success flow related to the first failure flow is determined for the first failure flow generated in the first network, and introduced for the first failure flow Its first target success flow with high similarity; then, through the first failure flow and the first target success flow and the trained first machine learning model, the trained first machine learning model can be compared Learning two streams with high similarity, it is easier to find a small difference between the two streams, then you can effectively analyze the root cause of the target failure corresponding to the difference, that is, the first failure occurs
  • the root cause of the connectivity failure thus, there is no need to manually analyze and determine the root cause of the fault through technical personnel, which also makes up for the problem that the root cause of the fault determined by using the method shown in FIG. 1 is not accurate and cannot be widely
  • Step 201 Determine a first target success flow related to the first failure flow from multiple first success flows according to the first failure flow in the first network, where the first target success flow and the first failure flow Streams have high similarity.
  • the request direction status flag indicates failure
  • the TCP flow may be regarded as a failed TCP flow; in another case, when the characteristic indicator of the response recorded in the TCP flow also indicates a failure, then the TCP flow may be regarded as a failed TCP flow.
  • the similarity between the first failure flow and each first success flow can be calculated by the following formula (1):
  • Step 303 Record the first success flow corresponding to the highest similarity among the calculated similarities as the first target success flow.
  • the first successful stream corresponding to the ear and the largest corresponding can be selected according to the following formula (2) as the corresponding to the first failed stream
  • I E argmax (E t ) Formula (2) where argmax () is the Si corresponding to the maximum value obtained, I B is the Si corresponding to the maximum value of the determined Bi, recorded as the first target success flow .
  • step 201 may also be implemented in other ways, for example: inputting multiple first success streams and first failure streams in the first network into the trained third machine learning model, According to the output result of the third machine learning model, the first target success flow is determined.
  • a plurality of first success streams and first failure streams may be converted into data formats to obtain a plurality of first success streams and first failure streams having the same data format.
  • the pre-processing function for performing data format conversion on multiple first success streams and first failure streams may be implemented by a pre-processing module independent of the functional unit implementing step 201; or it may be integrated in the Among the functional units that implement step 201, the functional unit that implements step 201 is implemented.
  • Step 202 Determine the root cause of the target failure of the first failure flow according to the characteristic index of the first failure flow, the characteristic index of the first target success flow, and the trained first machine learning model.
  • the first machine learning model is used to learn the input first target success flow and the first failure flow, and determine and output an output result corresponding to the target failure root cause of the first failure flow.
  • the first machine learning model is a trained model obtained by training the constructed first machine learning model with a large number of training sample sets, where each training sample in the training sample set may specifically include multiple A success flow and a failure flow.
  • the first machine learning model is trained to obtain the trained first machine learning model
  • the training samples in the training sample set used may include:
  • the known failure root in the second network is due to the first failure root cause.
  • the second failure flow and the second target success flow related to the second failure flow, each training sample, the process of training the initially constructed first machine learning model may specifically include: In the first step, the second failure flow and The second target is successfully streamed into the first machine learning model, and the first learning failure root cause is determined according to the output result; the second step is to determine whether the first learning failure root cause is consistent with the first known failure root cause, if not, then Adjust the parameters of the first machine learning model, re-use the adjusted first machine learning model as the first machine learning model, and return to the first step of execution; until the first If the root cause of the learning fault is consistent with the first known root cause of the fault, the current first machine learning model is determined to be the trained first machine learning model mentioned in step 202.
  • the structure of the first machine learning model is shown in FIG. 4, and the first machine learning model 400 may specifically include: a first neural network module 410, a second neural network module 420, and a third neural network module 420 o
  • the connection relationship and signal transmission direction of each module in the first machine learning model 400 are specifically:
  • the input of the first neural network module 310 may be the first failed stream itself or related data after the first failed stream has been processed; second
  • the input of the neural network module 420 may be the first target success stream itself or related data after the first target success stream has been processed;
  • the first neural network module 410 and the second neural network module 420 connect the output end to the third neural network module
  • the output of the third neural network module 430 is the output of the first machine learning model 400 ⁇
  • the first failure flow and the first target success flow itself or related data after processing may be input to the trained first machine learning model
  • an output result corresponding to the target failure root cause of the first failure stream is output.
  • the output result may be the target failure root cause of the first failure flow, so that the output result may be directly determined as the target failure root cause of the first failure flow; in another case, the The output result may be the identifier corresponding to the target failure root cause of the first failure stream.
  • the first network, the second network, and the third network may be the same network or different networks; similarly, the first success flow, The second success flow and the third success flow may be multiple same success flows in the same network, or may be different multiple success flows in the same network, or may be different multiple successes in different networks.
  • Flows; the first failure flow, the second failure flow, and the third failure flow may be different failure flows in the same network or failure flows in different networks; they are not specifically limited in the embodiments of the present application.
  • the initial coefficient set to be reinforced is determined, it can be based on the randomly selected initial coefficient set, and the characteristic index of the third failure flow and the characteristic index of each third success flow obtained in step 601, According to the above formula (1), the similarity between each third successful flow and the third failed flow under the initial coefficient set is calculated.
  • Step 604 Determine the second learning corresponding to the third failure flow under each initial coefficient set according to the characteristic index of the third failure flow, the characteristic index of the third target success flow corresponding to the multiple initial coefficient sets and the second machine learning model The difference between the root cause of the failure and the second known root cause of failure corresponding to the third failure flow.
  • the third target success stream and the third failure stream corresponding to the multiple initial coefficient sets are input to the second machine learning model, and according to the output result of the second machine learning model, the first The difference between the second learning failure root cause corresponding to the three failure flows and the second known failure root cause corresponding to the third failure flow.
  • the process of performing step 604 may specifically include:
  • step 202 reference may be made to the relevant description in step 202.
  • the sum of multiple first differences may be used as the difference corresponding to the initial coefficient set; as another example, the multiple first differences may also be averaged, and the average value obtained as the initial coefficient set Corresponding difference; as yet another example, you can also determine the contribution of the target coefficient set to the whole according to each round of learning, set corresponding weights for multiple first differences, and use the weighted values of the first differences and their corresponding weights as The difference corresponding to this initial coefficient set.
  • the streams mentioned in the apparatus of the embodiments of the present application are, for example, a first failure stream, a first target success stream, multiple first success streams, multiple second failure streams, and each second failure stream
  • the second target success flow and multiple second success flows are all TCP flows, IP flows, or UDP flows. It can be understood that the first failure flow, the first target success flow, and multiple first success flows are the same type of flow. Similarly, multiple second failure flows, and a second target related to each second failure flow The success flow and multiple second success flows must also be the same type of flow.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请公开了一种用于故障根因的识别方法、装置和设备,对于网络中访问发生连通性故障时出现的失败流,从该网络的多个成功流中,根据失败流确定与该失败流具有高相似度的目标成功流;再根据失败流、目标成功流以及已训练的第一机器学习模型,得到该失败流的目标故障根因。这样,通过从网络的多个成功流中确定与失败流相关的目标成功流,以及一个利用大量的具有较少特征指标差别的成功和失败流训练出的第一机器学习模型,即可准确的学习出当前的失败流和目标成功流之间特征指标的差别,基于这少量的差别获得该失败流的目标故障根因,实现了对导致网络发生连通性故障的故障根因的准确识别,从而节约了网络维护升本,提高了用户使用该网络的体验。

Description

一种用于故障根因的识别方法、 装置和设备 本申请要求于 2018 年 12 月 11 日提交中国国家知识产权局、 申请号为 CN 201811512160.9、 发明名称为 “一种用于故障根因的识别方法、 装置和设备” 的中国专利 申请的优先权, 其全部内容通过引用结合在本申请中。 技术领域 本申请涉及通信技术领域, 特别是涉及一种用于故障根因的识别方法、 装置和设备。 背景技术
目前, 对于网络, 例如: 数据中心网络(英文: Data Center Network, 筒称: DCN), 被广泛的用于在 internet网络基础设施上传递、 加速、 展示、 计算、 存储数据信息。
在网络中, 包括: 服务器和转发节点, 服务器之间可以通过各转发节点进行各种协议 的访问, 例如: 传输控制协议(英文: Transmission Control Protocol, 筒称: TCP)访问、 互联网协议(英文: Internet Protocol,筒称: IP)访问和用户数据报协议(英文: User Datagram Protocol, 筒称: UDP)访问等。 以 TCP访问为例, 具体过程包括: 源服务器通过各转发 节点向目的服务器发送 TCP连接请求, 由目的服务器再通过各转发节点向源服务器发送 TCP应答消息, 从而建立 TCP访问连接。
但是, 由于 IP下线、应用下线或者应用负载过重等原因, 网络中的访问连接可能建立 失败, 此时, 视作该网络发生了一个连通性故障, 为了保证业务不中断、 该网络继续有序 地运行, 就需要及时的找出导致该访问发生连通性故障的准确原因, 即, 故障根因, 从而 可以高效且有针对性的排除故障。 发明内容
为了解决上述问题,本申请实施例提供了一种用于故障根因的识别方法、装置和设备, 可以准确的识别出导致网络中访问发生连通性故障的故障根因, 从而节约了网络的维护升 本, 提高了用户使用网络的体验。
第一方面, 提供了一种用于故障根因的识别方法, 对于具体的第一网络, 如果有访问 发生连通性故障对应的失败流出现, 那么, 首先, 从第一网络的多个第一成功流中, 根据 该第一失败流确定与该第一失败流具有高相似度的第一目标成功流; 然后, 将第一失败流 和该第一目标成功流输入到已训练的第一机器学习模型中, 即可输出该第一失败流的目标 故障根因。
这样, 通过从网络的多个成功流中确定与失败流相似的目标成功流, 即, 确定了与该 失败流只有少部分特征指标存在差别的目标成功流, 结合利用大量的具有较少差异的成功 和失败流反复训练出的第一机器学习模型, 可以准确的学习出该待分析的失败流和其相关 的目标成功流之间的特征指标的差别, 从而基于这少量存在差别的特征指标, 可以准确的 输出该失败流的目标故障根因, 如此, 实现了对导致失败流发生连通性故障的故障根因的 准确识别, 从而节约了网络的维护升本, 提高了用户使用该网络的体验。
在第一方面的第一种可能的实现方式中,本申请实施例还可以包括对第一机器学习模 型的训练过程, 具体包括: 首先, 确定第二网络中的多条第二失败流和与每条第二失败流 对应的第一已知故障根因; 然后, 从第二网络的多条第二成功流中为每条第二失败流分别 确定一条相关的第二目标成功流, 其中, 每条第二失败流和与其相关的第二目标成功流具 有高相似度; 接着, 根据多条第二失败流的特征指标、 与每条第二失败流对应的第一已知 故障根因和与每条第二失败流相关的第二目标成功流的特征指标进行训练, 得到第一机器 学习模型。 如此, 训练得到的第一机器学习模型可以准确的学习出待分析的失败流和其相 关的目标成功流之间的特征指标的少量差别, 依据该差别得到表示该失败流的目标故障根 因的输出结果, 即, 为本申请实施例提供的用于故障根因的识别方法提供了数据基础。
其中, 本申请实施例所提及的流, 例如: 第一失败流、 第一目标成功流、 多条第一成 功流、 多条第二失败流、 与每条第二失败流相关的第二目标成功流和多条第二成功流, 均 为 TCP流、 IP流或者 UDP流。 可以理解的是, 第一失败流、 第一目标成功流、 多条第一 成功流为同一类型的流, 同理, 多条第二失败流、 与每条第二失败流相关的第二目标成功 流和多条第二成功流也必须是同一类型的流。
可以理解的是, 第一目标成功流与第一失败流具有高相似度, 具体为: 第一目标成功 流与第一失败流之间的相似度大于预设相似度阈值, 或, 第一目标成功流与第一失败流之 间的相似度属于第一网络中的多个第一成功流与第一失败流的相似度中最大的前 N个, N 为预设值。
在第一方面的第二种可能的实现方式中,根据第一网络中的第一失败流,从多条成功 流中确定与第一失败流相关的第一目标成功流, 包括: 第一步, 获取第一网络中第一失败 流的特征指标, 以及第一网络中多条第一成功流的特征指标; 第二步,基于目标系数集合、 第一失败流的特征指标以及各第一成功流的特征指标, 计算各第一成功流和第一失败流之 间的相似度; 目标系数集合包括的每个目标系数分别与第一失败流中的一个特征指标以及 每个第一成功流中的一个特征指标对应; 第三步, 将计算所得的多个相似度中最高的相似 度对应的第一成功流记作第一目标成功流。
其中,在该第一方面的第二种可能的实现方式中,还可以包括其第二步中的目标系数 集合的确定过程, 具体包括: 首先, 获取第三网络中第三失败流的特征指标, 以及第三网 络中多条第三成功流的特征指标; 然后, 分别基于随机选取的多个初始系数集合, 第三失 败流的特征指标以及各第三成功流的特征指标, 计算各初始系数集合下, 各第三成功流和 第三失败流之间的相似度; 接着, 基于计算所得的多个相似度, 确定每个初始系数集合下 第三失败流对应的第三目标成功流; 接着, 根据第三失败流的特征指标、 多个初始系数集 合对应的第三目标成功流的特征指标和第二机器学习模型, 确定每个初始系数集合下第三 失败流对应的第二学习故障根因与第三失败流对应的第二已知故障根因之间的差异; 最 后, 根据多个初始系数集合和每个初始系数集合对应的差异, 确定目标系数集合。 其中, 初始系数集合可以是采用 e-贪心算法随机选择的。
作为一个示例, 对于上述“目标系数集合的确定过程” 中的 “确定每个初始系数集合 下第三失败流对应的第二学习故障根因与第三失败流对应的第二已知故障根因之间的差 异”, 具体可以通过下述方式实现: 基于初始系数集合, 计算各第三成功流和第三失败流 之间的相似度, 并基于计算所得的多个相似度, 确定初始系数集合对应的第三失败流对应 的第三目标成功流; 将第三失败流和第三目标成功流输入到第二机器学习模型, 并根据第 二机器学习模型的输出结果, 确定第三失败流对应的第二学习故障根因; 计算第二学习故 障根因与第三失败流对应的第二已知故障根因之间的第一差异; 基于第一差异对第二机器 学习模型进行参数调整, 将参数调整后的第二机器学习模型重新作为第二机器学习模型, 并返回执行 “将第三失败流和第三目标成功流输入到第二机器学习模型”; 直到满足参数 调整次数达到预设次数阈值, 或者, 当前的第二学习故障根因与第二已知故障根因之间的 第一差异小于预设差异阈值, 则, 根据多次计算所得的多个第一差异, 确定初始系数集合 对应的差异。
需要说明的是,从初始目标系数集合中确定目标系数集合后, 才可以准确的从多条第 一成功流中确定与第一失败流相关的第一目标成功流, 从而确保了已训练的第一机器学习 模型输入数据的准备性, 提高了识别出的第一失败流的目标故障根因的准确性。
作为一个示例,在该第一方面的第二种可能的实现方式的第三步“根据多个初始系数 集合和每个初始系数集合对应的差异, 确定目标系数集合” 的一种具体实现过程, 具体包 括: 对多个初始系数集合和每个初始系数集合对应的差异进行拟合; 确定拟合结果中最小 值点对应的系数集合为目标系数集合。
可以理解的是, 目标故障根因包括: IP下线、 应用下线、 安全设备层异常、 路由设备 层异常、 网口出错或者应用负载过重。
在第一方面的第三种可能的实现方式中, 为了可以让该连通性故障可以被快速的排 除, 让该网络可以快速的为用户提供高质量的服务, 本申请实施例还可以包括: 基于目标 故障根因, 对第一网络进行维护。
第二方面, 还提供了一种用于故障根因的识别装置, 包括: 第一确定单元, 用于根据 第一网络中的第一失败流, 从多条第一成功流中确定与第一失败流相关的第一目标成功 流, 其中, 第一目标成功流与第一失败流具有高相似度; 第二确定单元, 用于根据第一失 败流的特征指标、 第一目标成功流的特征指标和已训练的第一机器学习模型, 确定第一失 败流的目标故障根因。
在第二方面的第一种可能的实现方式中,本申请实施例还可以包括对第一机器学习模 型的训练过程, 具体由第三确定单元、 第四确定单元和训练单元实现, 即, 该装置还包括: 第三确定单元, 用于确定第二网络中的多条第二失败流和与每条第二失败流对应的第一已 知故障根因; 第四确定单元, 用于从第二网络的多条第二成功流中为每条第二失败流分别 确定一条相关的第二目标成功流, 其中, 每条第二失败流和与其相关的第二目标成功流具 有高相似度; 训练单元, 用于根据多条第二失败流的特征指标、 与每条第二失败流对应的 第一已知故障根因和与每条第二失败流相关的第二目标成功流的特征指标进行训练, 得到 第一机器学习模型。
其中, 本申请实施例的装置中所提及的流, 例如: 第一失败流、 第一目标成功流、 多 条第一成功流、 多条第二失败流、 与每条第二失败流相关的第二目标成功流和多条第二成 功流, 均为 TCP流、 IP流或者 UDP流。 可以理解的是, 第一失败流、 第一目标成功流、 多条第一成功流为同一类型的流, 同理, 多条第二失败流、 与每条第二失败流相关的第二 目标成功流和多条第二成功流也必须是同一类型的流。
可以理解的是, 第一目标成功流与第一失败流具有高相似度, 具体为: 第一目标成功 流与第一失败流之间的相似度大于预设相似度阈值, 或, 第一目标成功流与第一失败流之 间的相似度属于第一网络中的多个第一成功流与第一失败流的相似度中最大的前 N个, N 为预设值。
在第二方面的第二种可能的实现方式中, 该装置的第一确定单元, 具体可以包括: 获 取子单元, 用于获取第一网络中第一失败流的特征指标, 以及第一网络中多条第一成功流 的特征指标; 计算子单元, 用于基于目标系数集合、 第一失败流的特征指标以及各第一成 功流的特征指标, 计算各第一成功流和第一失败流之间的相似度; 目标系数集合包括的每 个目标系数分别与第一失败流中的一个特征指标以及每个第一成功流中的一个特征指标 对应; 第一确定子单元, 用于将计算所得的多个相似度中最高的相似度对应的第一成功流 记作第一目标成功流。
其中, 该实现方式中还可以包括对目标系数集合的确定过程, 具体可以由该装置中的 获取单元、 计算单元、 第五确定单元、 第六确定单元和第七确定单元实现, 即, 该装置还 包括: 获取单元, 用于获取第三网络中第三失败流的特征指标, 以及第三网络中多条第三 成功流的特征指标; 计算单元, 用于分别基于随机选取的多个初始系数集合, 第三失败流 的特征指标以及各第三成功流的特征指标, 计算各初始系数集合下, 各第三成功流和第三 失败流之间的相似度; 第五确定单元, 用于基于计算所得的多个相似度, 确定每个初始系 数集合下第三失败流对应的第三目标成功流; 第六确定单元, 用于根据第三失败流的特征 指标、 多个初始系数集合对应的第三目标成功流的特征指标和第二机器学习模型, 确定每 个初始系数集合下第三失败流对应的第二学习故障根因与第三失败流对应的第二已知故 障根因之间的差异; 第七确定单元, 用于根据多个初始系数集合和每个初始系数集合对应 的差异, 确定目标系数集合。 其中, 初始系数集合可以是采用 e-贪心算法随机选择的。
作为一个示例, 对于上述 “第六确定单元”, 具体可以通过下述方式实现: 第三确定 子单元, 用于基于初始系数集合, 计算各第三成功流和第三失败流之间的相似度, 并基于 计算所得的多个相似度, 确定初始系数集合对应的第三失败流对应的第三目标成功流; 处 理子单元, 用于将第三失败流和第三目标成功流输入到第二机器学习模型, 并根据第二机 器学习模型的输出结果, 确定第三失败流对应的第二学习故障根因, 计算第二学习故障根 因与第三失败流对应的第二已知故障根因之间的第一差异; 调整子单元, 用于基于第一差 异对第二机器学习模型进行参数调整, 将参数调整后的第二机器学习模型重新作为第二机 器学习模型,并返回触发所述处理子单元执行;直到满足参数调整次数达到预设次数阈值, 或者, 当前的第二学习故障根因与第二已知故障根因之间的第一差异小于预设差异阈值, 则, 触发第四确定子单元执行, 具体用于: 才艮据多次计算所得的多个第一差异, 确定初始 系数集合对应的差异。
作为一个示例, 上述第七确定单元, 具体可以包括: 拟合子单元, 用于对多个初始系 数集合和每个初始系数集合对应的差异进行拟合; 第二确定子单元, 用于确定拟合结果中 最小值点对应的系数集合为目标系数集合。
可以理解的是, 目标故障根因包括: IP下线、 应用下线、 安全设备层异常、 路由设备 层异常、 网口出错或者应用负载过重。
在第一方面的第三种可能的实现方式中, 为了可以让该连通性故障可以被快速的排 除,让该网络可以快速的为用户提供高质量的服务,本申请实施例提供的装置还可以包括: 维护单元, 用于基于目标故障根因, 对第一网络进行维护。
需要说明的是, 本申请实施例在第二方面提供的装置, 实现效果可以参见上述第一方 面提供的方法的描述, 这里不再赘述。
第三方面, 本申请实施例提供了一种用于故障根因的识别设备, 该设备具有实现上述 方法的功能。 所述功能可以通过硬件实现, 也可以通过硬件执行相应的软件实现。 所述硬 件或软件包括一个或多个与上述功能相对应的模块。 在一个可能的设计中, 上述设备的结 构中包括处理器和收发器, 所述处理器被配置为处理该用于故障根因的识别装置执行上述 方法中相应的功能。 所述收发器用于实现上述用于故障 4艮因的识别装置与其他设备之间的 通信。 所述用于故障根因的识别设备还可以包括存储器, 所述存储器用于与处理器耦合, 其保存该用于故障根因的识别设备必要的程序指令和数据。
第四方面, 本申请实施例提供了一种计算机可读存储介质, 所述计算机可读存储介质 中存储有指令, 当其在计算机上运行时, 使得计算机执行上述第一方面所述的方法。
第五方面, 本申请实施例提供了一种包含指令的计算机程序产品, 当其在计算机上运 行时, 使得计算机执行上述第一方面所述的方法。
第六方面, 本申请提供了一种芯片系统, 该芯片系统包括处理器, 用于支持上述装置 或用户设备实现上述方面中所涉及的功能, 例如, 生成或处理上述方法中所涉及的信息。 在一种可能的设计中, 所述芯片系统还包括存储器, 所述存储器, 用于保存数据发送设备 必要的程序指令和数据。该芯片系统, 可以由芯片构成, 也可以包含芯片和其他分立器件。 附图说明 为了更清楚地说明本申请实施例中的技术方案, 下面将对实施例描述中所需要使用的 附图作筒单地介绍, 显而易见地, 下面描述中的附图仅仅是本申请中记载的一些实施例, 对于本领域普通技术人员来讲, 还可以根据这些附图获得其他的附图。
图 1为本申请实施例中一机器学习模型的结构示意图;
图 2为本申请实施例中一种用于故障根因的识别方法的流程示意图;
图 3为本申请实施例中步骤 201的一实现方式的流程示意图;
图 4为本申请实施例中第一机器学习模型的一结构示意图;
图 5为本申请实施例中第一机器学习模型的另一结构示意图;
图 6为本申请实施例步骤 301中的目标系数集合的确定方法的流程图;
图 7为本申请实施例步骤 604的一实现方式的流程流程图;
图 8为本申请实施例中一种用于故障根因的识别装置的结构示意图;
图 9为本申请实施例中一种用于故障根因的识别设备的结构示意图。
具体实施方式 为了满足日益增加的数据处理需求, 一方面, 许多网络中采用冗余设备, 即, 每个网 络中的每层设置多个交换设备作为转发节点; 另一方面, 将服务器进行物理资源到逻辑资 源的抽象, 虚拟化为多台虚拟机(英文: Virtual Machine, 筒称: VM), 提升了资源利用 率。
随着网络架构的日趋复杂化,在网络中为用户提供的应用不断增多,服务器之间、 VM 之间或者服务器和 VM之间的各类访问也十分频繁, 而各类流可以记录每次访问 (包括连 接请求和应答消息等)的相关信息。 在各类流产生的基数较大的情况下, 由于 IP下线、 应 用下线或者应用负载过重等状况导致各类访问连接建立失败的情况时有发生, 视作该网络 发生了连通性故障, 各类流中也就包括了记录有这些访问连接建立失败时所对应的相关 信息的失败流。
为了保证业务不中断、 网络可以持续有序地运行, 需要准确的找出导致该访问发生连 通性故障的故障根因, 从而可以高效且有针对性的排除故障, 恢复网络的正常运行。 而确 定失败流的故障根因的一种常用的方式为: 由用户主动发现访问连接建立失败的状态并进 行相应的投诉操作后, 由技术人员分析、 查找该网络中产生的失败流, 并通过数据分析确 定导致该失败流失败的故障原因。 如此, 不仅耗费技术人员的时间和精力, 而且该处理方 式处理效率低下, 难以满足用户对于时效性的要求, 且需要用户自主投诉发生的异常, 大 大较低了网络带给用户的体验。
为了解决上述人工确定失败流的故障根因存在的问题, 还可以搭建并且训练一个用于 识别失败流连通性故障的故障根因的机器学习模型,例如:参见图 1所示的机器学习模型, 其中, 该机器学习模型 100包括卷积神经网络模块 110和全连接模块 120, 卷积神经网络 模块 110可以包括: 卷积层 111、 归一化层 112和第一激活层 113; 全连接模块 120可以包 括: 第一全连接层 121、 第二激活层 122和第二全连接层 123。 但是, 对于该单输入通道 的机器学习模型 100, 由于网络中产生的流记录的信息复杂繁多, 即使对卷积神经网络模 块 110和全连接模块 120进行合理的搭建, 而且以足够大的训练样本集训练, 该机器学习 模型 100也不能准确的得出所输入的失败流的真实故障根因, 而且该机器学习模型 100只 适用于对训练样本对应的网络所产生的失败流进行故障根因识别, 不可以被推广应用, 所 以, 该机器学习模型 100无论输入的是网络中所有流还是该网络中所有的失败流, 无论进 行多少次训练, 均不能被在线广泛应用。
基于此, 为了克服上述机器学习模型 100无法收敛, 不能准确的识别和被广泛推广使 用的问题, 在本申请实施例中, 提供了一种可以自动和准确的识别出失败流故障根因的方 法, 即, 从第一网络的多个第一成功流中, 为该第一网络中产生的第一失败流确定与该第 一失败流相关的第一目标成功流, 为该第一失败流引入与其具有高相似度的第一目标成功 流; 接着, 通过该第一失败流和该第一目标成功流和已训练的第一机器学习模型, 该已训 练完成的第一机器学习模型即可对比学习具有高相似度的两个流, 较为容易发现这两个流 之间之间的少部分差异, 那么, 就可以有效的分析出该差异对应的目标故障根因, 即导致 该第一失败发生连通性故障的根本原因, 如此, 无需通过技术人员去人工分析确定故障根 因, 也弥补了采用例如图 1的方式确定的故障根因不够准确和无法广泛推广使用的问题, 从而节约了网络的维护升本, 提高了用户使用网络的体验。
下面结合附图, 通过实施例来详细说明本申请实施例中一种故障根因的识别方法的具 体实现方式。 参见图 2, 示出了本申请实施例中一种用于故障根因的识别方法的流程示意图。 该用 于故障才艮因的识别方法具体可以包括:
步骤 201 , 根据第一网络中的第一失败流, 从多条第一成功流中确定与该第一失败流 相关的第一目标成功流, 其中, 该第一目标成功流与该第一失败流具有高相似度。
可以理解的是, 流用于记录网络(例如: DCN) 中的服务器之间、 VM之间或者服务 器与 VM之间的发生的各类访问的相关信息。需要说明的是,各类访问产生对应类型的流, 例如: 对于记录 TCP访问的相关信息的流记作 TCP流, 对于记录 IP访问的相关信息的流 记作 IP流, 对于记录 UDP访问的相关信息的流记作 UDP流。
被流记录下的相关信息也记作该流的特征指标, 例如: 对于 TCP访问中产生的 TCP 流, 记录的特征指标可以包括: 源 IP、 源端口、 目的 IP、 目的端口、 请求连接时间、 请求 方向状态标志、应答方向状态标志、请求方向所经过的每个转发节点的 IP地址和应答方向 所经过的每个转发节点的 IP地址。
根据流中记录的特征指标, 可以确定产生的流是否为失败流。 例如: 可以通过对 TCP 流所记录的特征指标进行分析确定 TCP流是否为失败 TCP流, 一种情况下, 如果该 TCP 流中记录的发出相同请求的数目过多,但是未接收到与该请求对应的应答,可以认为该 TCP 流为失败 TCP流; 另一种情况下, 如果该 TCP流中发出相同请求的数目过多且请求之后 源节点和目的节点之间没有数据交互, 也可以认为该 TCP流为失败 TCP流。 再例如: 也 可以通过读取 TCP流中的请求方向状态标志和应答方向状态标志,确定该 TCP为失败 TCP 流, 一种情况下, 当 TCP流记录的特征指标中, 请求方向状态标志表示失败, 那么, 可以 认为该 TCP流为失败 TCP流; 另一种情况下, 当 TCP流记录的特征指标中, 应答方向状 态标志也表示失败, 那么, 可以认为该 TCP流为失败 TCP流。
可以理解的是, 每个网络中, 每时每刻均可以产生很多的流, 一旦出现失败流, 则表 示有用户的对应访问建立失败, 那么, 为了让该网络可以尽快恢复从而用户提供服务, 可 以根据本申请实施例及时和准确的识别出该失败流的故障根因, 从而从根本上排除该故 障, 以便提升用户体验。
具体实现时, 在第一网络中, 包括很多第一成功流; 当该网络中产生了第一失败流时, 可以从这多条第一成功流中选择的与该第一失败流相关的第一成功流, 作为第一目标成功 流。 需要说明的是, 第一网络, 是指连通性故障导致出现第一失败流的任何网络, 不是特 指某一个特定的网络。
可以理解的是, 第一目标成功流与第一失败流相关, 是指该第一目标成功流和第一失 败流之间具有高相似度, 具体可以下述两种可能的情况: 第一目标成功流与第一失败流之 间的相似度大于预设相似度阈值; 或者, 第一目标成功流与第一失败流之间的相似度属于 第一网络中的多个第一成功流与第一失败流的相似度中最大的前 N个, N为预设值。
作为一个示例, 第一目标成功流和第一失败流之间具有高相似度可以是第一目标成功 流与第一失败流之间的相似度大于预设相似度阈值。 其中, 预设相似度阈值, 是指第一成 功流的特征指标与第一失败流的特征指标的相似度的最小允许值, 当第一成功流的特征指 标与第一失败流的特征指标的相似度大于该预设相似度阈值时, 表示该第一成功流与第一 失败流是具有高相似度的两个流, 那么, 可以确定该第一成功流为第一目标成功流; 否则, 当第一成功流的特征指标与第一失败流的特征指标的相似度不大于该预设相似度阈值时, 表示该第一成功流与第一失败流的相似度不够高, 那么, 可以确定该第一成功流不是该第 一失败流对应的第一目标成功流。
可以理解的是, 两条流的相似度, 具有与两条流包括的各特征指标 (如: 源 IP、 源端 口、 目的 IP、 目的端口、 请求连接时间、 请求方向状态标志、 应答方向状态标志、 请求方 向所经过的每个转发节点的 IP地址和应答方向所经过的每个转发节点的 IP地址),以及每 个特征指标对应设置的权重系数相关。 在一个例子中, 两条流的相似度的计算方式具体可以是: 将两条流的各个对应的特征 指标的多位分别相与; 再将每个特征指标对应的与运算后的结果与该特征指标对应的权重 系数相乘; 最后把多个乘积相加。 例如: 对于 DCN中的两条 TCP流: TCP流 1和 TCP流 2, 假设 TCP流 1包括: 源 IP: aaaa、 源端口: bb、 目的 IP: cccc、 目的端口: dd、 请求 连接时间: efef、 请求方向状态标志: gggg、 应答方向状态标志: hhhh, TCP流 2包括: 源 IP: iiii、 源端口: jj、 目的 IP-kkkk、 目的端口: 11、 请求连接时间: mnmn、 请求方向状 态标志: oooo、 应答方向状态标志: pppp, 且对应设置的权重为: 源 IP: 0.1、 源端口: 0.2、 目的 IP: 0.1、 目的端口: 0.2、 请求连接时间: 0.2、 请求方向状态标志: 0.1、 应答方 向状态标志: 0.1 , 那么, 该 TCP流 1和 TCP流 2中, 源 IP这一特征指标的相似度为: rl= 0.1* ( aaaa&iiii ),其中, &代表“与”运算, 同理, 源端口这一特征指标的相似度为: r2=0.2* ( bb&jj ), 以此类推, 可以得到目的 IP对应的相似度 r3、 目的端口对应的相似度 r4、 请求 连接时间对应的相似度 r5、请求方向状态标志对应的相似度 r6和应答方向状态标志对应的 相似度 r7 , 至此, 可以计算该 TCP流 1和 TCP流 2的相似度为: R=rl+r2 + +r6+r7。
需要说明的是, 两条流的相似度也可以采用其他的计算方式, 例如: 将上述例子中的 与运算替换为异或运算, 只要获得的计算结果可以体现两条流的相关程度, 均可以作为本 申请实施例中计算流的相似度的计算方式。
以第一网络为第一 DCN, 流的类型为第一 DCN中的 TCP流进行举例说明: 假设第一 DCN中预设相似度阈值为 85% , 且该第一 DCN中包括第一成功 TCP流 1、 第一成功 TCP 流 2和第一成功 TCP流 3 , 第一失败 TCP流 4; 那么, 可以先分别计算得到第一成功 TCP 流 1和第一失败 TCP流 4之间的相似度为 80%, 第一成功 TCP流 2和第一失败 TCP流 4 之间的相似度为 50% ,以及第一成功 TCP流 3和第一失败 TCP流 4之间的相似度为 90%; 再分别比较计算所得的多个相似度是否大于 85% ,发现只有第一成功 TCP流 3和第一失败 TCP流 4之间的相似度 90%大于 85% , 则, 确定第一成功 TCP流 3为与第一失败 TCP流 4相关的第一目标成功 TCP流。
作为另一个示例, 第一目标成功流和第一失败流之间具有高相似度, 也可以是从第一 网络中的多条成功流与第一失败流的多个相似度中, 选择相似度最大的前 N个, N为预设 值。 可以理解的是, N可以是技术人员根据经验或者根据网络的实际情况, 预先设置的需 要确定的与第一失败流相关的第一目标成功流的数目。
一些情况下, 可以根据该第一网络的架构复杂程度进行设置 N的取值, 为后续确定该 第一失败流的目标故障根因提供充足的数据基础。 如果该第一网络中包括了较多的转发节 点, 结构复杂, 则, 可以为第一失败流确定数目较多的第一目标成功流, 即, 第一网络结 构越复杂, 设置 N越大; 如果该第一网络中包括了较少的转发节点, 结构相对筒单, 则, 可以为第一失败流确定数目较少的第一目标成功流, 即, 第一网络结构越筒单, 设置 N越 小, 例如: 可以设置 N=l (即, 为第一失败流确定一个相似度的最高的第一目标成功流 X 以第一网络为第一 DCN, 流的类型为第一 DCN中的 IP流进行举例说明: 假设第一 DCN中预设值 N=2, 且该第一 DCN中包括第一成功 IP流 1、 第一成功 IP流 2和第一成 功 IP流 3 , 第一失败 IP流 4; 那么, 可以先分别计算得到第一成功 IP流 1和第一失败 IP 流 4之间的相似度为 80%, 第一成功 IP流 2和第一失败 IP流 4之间的相似度为 50%, 以 及第一成功 IP流 3和第一失败 IP流 4之间的相似度为 90%;再将多个第一成功 IP流按照 对应的相似度从大到小的顺序进行排序, 可知: 90% > 80% > 50%, 多个第一成功 IP流按 照相似度从大到小的顺序为: 第一成功 IP流 3、第一成功 IP流 1、第一成功 IP流 2,那么, 选取 2个最大的相似度对应的第一成功 TCP流, 即,选取排在前两位的第一成功 TCP流 3 和第一成功 TCP流 1, 作为和第一失败 TCP流 4相关的第一目标成功 IP流。
N= 1可以表示从多条第一成功流中只确定一条与第一失败流相关的第一目标成功流, 可以确保该确定出第一目标成功流和第一失败流最为相关, 从而使得确定出第一失败流的 目标故障根因更加准确, 有利用本申请实施例可以被更加广泛的投入各种网络中, 为用户 提供更好的体验。
在一些可能的实现方式中, 参见图 3, 示出了步骤 201的一种具体实现方式, 可以包 括下述步骤 301〜步骤 303:
步骤 301 , 获取第一网络中第一失败流的特征指标, 以及第一网络中多个第一成功流 的特征指标。
可以理解的是, 当该第一网络中产生了第一失败流后, 可以提取该第一失败流中所记 录的特征指标, 并且, 获取该第一网络中的多条第一成功流, 从中提取各条第一成功流中 记录的特征指标。
需要说明的是, 第一网络中多条第一成功流, 可能基于该网络中架构的变化或者 IP 地址的变化而触发更新, 也可能周期性触发更新, 不是固定不变的。 确定第一目标成功流 时, 一种情况下, 为了数据的全面和分析的准确性, 该第一网络中的多条第一成功流, 可 以是指该第一网络中的当前所有第一成功流; 另一种情况下, 为了节约资源并提升处理速 率, 该第一网络中的多条第一成功流, 也可以是该第一网络中的当前所有第一成功流中的 部分第一成功流, 例如: 从当前所有第一成功 TCP流中选取最近 3分钟产生的多条第一成 功 TCP。
其中, 第一失败流包括的特征指标的数目, 和每条第一成功流的特征指标的数目基本 一致, 即, 第一失败流和每个第一成功流的长度可以是一致的。
步骤 302, 基于目标系数集合、 第一失败流的特征指标以及各第一成功流的特征指标, 计算各第一成功流和第一失败流之间的相似度; 其中, 该目标系数集合包括的每个目标系 数分别与第一失败流的一个特征指标以及每个第一成功流的一个特征指标对应。
可以理解的是, 目标系数集合, 是多个目标系数的组成的集合。 每个目标系数与流中 的一个特征指标对应, 用于计算该特征指标在第一失败流中的数值与在第一成功流中的数 值之间的相似度。
作为一个示例, 可以通过下述公式( 1)计算该第一失败流与每一条第一成功流之间 的相似度:
Figure imgf000011_0001
其中, %表示目标系数集合, 其中包括 j个目标系数 , F表示第一失败流, 表示 第 i条第一成功流, 两组特征指标对应位数的值相与后,与对应的目标系数 组成的多位 数进行各位相乘之后求和,得到第 i条第一成功流与第一失败流之间的相似度 S;, i=l,2, , M。 在该例子中,
Figure imgf000011_0002
可以采用多臂老虎机算法确定, 也可以通过其他的实现方式确定, 在此不作具体限定。
以第一失败流和第一成功流的类型均为 TCP流进行举例说明: 假设第一失败 TCP流 包括特征指标 A、 B、 C和 D, 第一条第一成功 TCP流对应包括特征指标 A B Q和 Di, 第二条第一成功 TCP流对应包括特征指标 A2、 B2、 C2和 D2, 目标系数集合对应包括 目标系数 Wn、 W12、 \¥13和 \¥14, 那么, 可以根据上述公式 ( 1 )计算该第一条第一成功 似 度 Bi :
Figure imgf000012_0001
同理, 可以根据 上述公式 ( 1 ) 计算该第二条第一成功 TCP 流和第一失败 TCP 流之间的相似度 B2 : B2 = X (A&A2) + W1Z X (S碼) + X (C& C2) + W14 X (D & D2)。 依次类推, 可以 针对每个第一成功 TCP流, 计算出一个该第一成功 TCP流与第一失败 TCP流之间的相似 度。
步骤 303, 将计算所得的多个相似度中最高的相似度对应的第一成功流记作第一目标 成功流。
通过步骤 302可以计算得到第一失败流与每个第一成功流之间的相似度, 从而可以从 该多个相似度中确定一个或者多个最高的相似度, 将该一个或者多个最高的相似度对应的 第一成功流记作第一目标成功流。
作为一个示例, 当计算出多条第一成功流对应的多个 后, 可以才艮据下述公式 ( 2 )选 耳又最大 对应的那条第一成功流, 作为该第一失败流对应的第一目标成功流:
IE = argmax ( Et ) 公式 ( 2 ) 其中, 该 argmax ( )是用于求取 的最大值对应的 Si, IB是确定的 Bi的最大值对应 的 Si, 记作第一目标成功流。
需要说明的是, 该实现方式下步骤 302中的目标系数集合可以是通过强化学习算法基 于多个初始系数集合确定的, 具体确定目标系数集合的实现方式参见下述图 6所示的实施 例的相关描述, 在此不再赘述。
在另一些可能的实现方式中, 步骤 201也可以通过其他的方式实现, 例如: 将第一网 络中的多条第一成功流和第一失败流输入到已训练的第三机器学习模型中, 并根据该第三 机器学习模型的输出结果, 确定第一目标成功流。
可以理解的是, 第三机器学习模型, 是用于从多个第一成功流中确定与第一失败流具 有高相似度的第一目标成功流。 该第三机器学习模型是通过构建的第三初始机器学习模型 采用大量的训练样本集进行训练得到的已训练的模型, 其中, 训练样本集中的每个训练样 本具体可以包括属于同一网络中的多个条成功流和失败流。
为了确保已训练的第三机器学习模型处理的准确性, 需要提供多样的训练样本, 即, 训练样本集中的各个训练样本可以来自同一网络, 但是每个训练样本中包括不同的失败 流; 该训练样本集中的各个训练样本也可以来自不同的网络。
需要说明的是, 对第三机器学习模型进行训练得到已训练的第三机器学习模型的具体 过程, 即为确定该第三机器学习模型中对应的目标系数集合的过程, 可以参见下述图 6所 示的实施例的相关描述, 在此不再赘述。
具体实现时, 由于第一成功流和第一失败流中均包括多个特征指标, 为了步骤 201可 以有效的在多条第一成功流中确定与第一失败流相关的第一目标成功流, 可以在步骤 201 之前, 先将多条第一成功流和第一失败流进行数据格式转换, 得到具有相同数据格式的多 条第一成功流和第一失败流。 需要说明的是, 该对多条第一成功流和第一失败流进行数据 格式转换的预处理功能,可以是由独立于实现步骤 201的功能单元的一个预处理模块实现; 也可以集成于该实现步骤 201的功能单元中, 由该该实现步骤 201的功能单元实现。
以第一失败流和第一成功流的类型均为 TCP流进行举例说明: 将第一失败 TCP流和 每个第一成功 TCP流的数据格式均转换为预设数据格式,预设数据格式为:源 IP、源端口、 目的 IP、 目的端口、 请求连接时间、 请求方向状态标志、 应答方向状态标志、 请求方向所 经过的每个转发节点的 IP地址和应答方向所经过的每个转发节点的 IP地址, 如此, 对转 换后具有相同数据格式的多条第一成功 TCP流和第一失败 TCP流执行步骤 201,即可对每 个第一成功 TCP流分别和第一失败 TCP流中的特征指标依次进行对应比较和学习, 无需 在特征指标比对之前再查找与该第一失败 TCP中的该特征指标是第一成功 TCP流的哪个 相应的特征指标, 提高了步骤 201的处理效率和准确性。
此外, 步骤 201还可以通过其他的方式实现, 例如: 通过其他的计算公式以及确定目 标相似度的预设规则, 确定与第一失败流相似的第一目标成功流, 其中, 该计算公式以及 确定目标相似度的预设规则可以由技术人员根据实际需要或者专业经验设定, 在此不再赘 述。
可以理解的是,根据步骤 201确定出与第一失败流的特征指标相关的第一目标成功流, 为步骤 202中通过双通道的第一机器学习模型学习该第一失败流提供了充分和有效的数据 基础, 为识别出该第一失败流的准确的目标故障根因提供了必要的前提条件。
步骤 202, 4艮据第一失败流的特征指标、 第一目标成功流的特征指标和已训练的第一 机器学习模型, 确定所述第一失败流的目标故障根因。
作为一个示例, 可以将第一失败流和第一目标成功流输入到已训练的第一机器学习模 型中, 并根据第一机器学习模型的输出结果, 确定该第一失败流的目标故障根因。
可以理解的是, 第一机器学习模型, 是用于对输入的第一目标成功流和第一失败流进 行学习, 确定并输出与该第一失败流的目标故障根因对应的输出结果。 该第一机器学习模 型是通过对构建的第一机器学习模型采用大量的训练样本集进行训练得到的已训练的模 型, 其中, 训练样本集中的每个训练样本具体可以包括属于同一网络中的多条成功流和失 败流。
为了确保已训练的第一机器学习模型处理的准确性, 需要提供多样的训练样本, 即, 训练样本集中的各个训练样本可以来自同一网络, 但是每个训练样本中包括不同的失败 流; 该训练样本集中的各个训练样本也可以来自不同的网络。
具体实现时,对第一机器学习模型进行训练得到已训练的第一机器学习模型的过程具 体可以包括: 首先, 确定第二网络中的多条第二失败流和与每条第二失败流对应的第一已 知故障根因; 然后, 从该第二网络的多条第二成功流中为每条第二失败流分别确定一条相 关的第二目标成功流,其中,每条第二失败流和与其相关的第二目标成功流具有高相似度; 接着, 根据多条第二失败流的特征指标、 与每条第二失败流对应的第一已知故障根因和与 每条第二失败流相关的第二目标成功流的特征指标进行训练, 得到所述第一机器学习模 型。
作为一个示例, 对第一机器学习模型进行训练得到已训练的第一机器学习模型, 采用 的训练样本集中的训练样本可以包括: 第二网络中的已知故障根因为第一故障根因的第二 失败流和与该第二失败流相关的第二目标成功流, 每个训练样本, 对初始构建的第一机器 学习模型进行训练的过程具体可以包括: 第一步, 将第二失败流和第二目标成功流输入到 第一机器学习模型, 根据输出结果确定第一学习故障根因; 第二步, 判断第一学习故障根 因与第一已知故障根因是否一致, 如果不一致, 则对第一机器学习模型进行参数调整, 将 参数调整后的第一机器学习模型重新作为第一机器学习模型, 并返回执行第一步; 直到第 学习故障根因与第一已知故障根因一致, 则确定当前的第一机器学习模型为步骤 202中 提及的已训练的第一机器学习模型。
在一些实现方式中, 第一机器学习模型的结构如图 4所示, 该第一机器学习模型 400 具体可以包括: 第一神经网络模块 410、 第二神经网络模块 420和第三神经网络模块 420 o 该第一机器学习模型 400中各模块的连接关系及信号传输方向具体为: 第一神经网络模块 310 的输入可以是第一失败流本身或者第一失败流经过处理后的相关数据; 第二神经网络 模块 420的输入可以是第一目标成功流本身或者第一目标成功流经过处理后的相关数据; 第一神经网络模块 410和第二神经网络模块 420将输出端连接到第三神经网络模块 430的 输入端, 第三神经网络模块 430的输出为第一机器学习模型 400的输出 ^
的一个例子中, 具体可以参见图 5, 对于第一神经网络模块 410, 按照输入数据流经 的顺序依次可以包括: 第一卷积层 411、 第一归一化层 412和第三激活层 413; 对于第二神 经网络模块 420, 按照输入数据流经的顺序依次可以包括: 第二卷积层 421、 第二归一化 层 422和第四激活层 423; 对于第三神经网络模块 430, 按照输入数据流经的顺序依次可 以包括: 第三全连接层 431、 第五激活层 432和第四全连接层 433; 且, 在第一神经网络 模块 410和第二神经网络模块 420的输出端接入第三神经网络模块 430之间, 还可以包括 连接模块 440, 用于将第一神经网络模块 410和第二神经网络模块 420的输出端的数据进 行连接后输入给第三神经网络模块 430进行后续分析。
需要说明的是, 该第一机器学习模型不仅可以采用卷积神经网络、 全连接网络进行搭 建, 还可以采用其他的网络算法, 例如: 随机森林网络、 长短期记忆网络(英文: Long Short-Term Memory, 筒称: LSTM)、 遗传算法网络等来构建。 只要可以实现对第一失败流 和第一目标成功流的学习, 输出与第一失败流的目标故障根因对应的输出结果, 均可以作 为构建该第一机器学习模型的网络。
具体实现时, 在确定了第一失败流相似的第一目标成功流后, 可以将第一失败流和第 一目标成功流本身或者其处理后的相关数据输入至已训练的第一机器学习模型中, 该第一 机器学习模型经过对输入的处理, 输出与第一失败流的目标故障根因对应的输出结果。 那 么, 一种情况下, 该输出结果可以是第一失败流的目标故障根因本身, 如此, 可以直接将 该输出结果确定为第一失败流的目标故障根因; 另一种情况下, 该输出结果可以是第一失 败流的目标故障根因对应的标识, 如此, 可以通过对该输出结果的分析, 才可以确定出标 识对应的目标故障根因, 例如: 输出结果为数字 l~n, (n(n, n 为整数), 每个数字对应 一个故障根因, 如, 1: IP下线、 2: 应用下线、 3: 安全设备层异常、 4: 路由设备层异常、 5: 网口出错、 6: 应用负载过重等, 该对应关系是预先设置的, 那么, 当该第一机器学习 模型的输出结果为 1时, 通过与该预先设置的对应关系的对比可知, 该第一失败流对应的 目标故障根因为 IP下线。
需要说明的是, 对于同一个失败流而言, 导致该失败流对应的访问出现连通性故障的 原因, 可能有多个。 但是, 为了方便识别该失败流的故障根因以及方便后续网络的维护, 技术人员根据经验累积或者实际情况, 可以为多个可能导致访问发生连通性故障的原因设 置不同的优先级, 一旦出现多个原因导致某个访问发生连通性故障, 就可以根据各个原因 的优先级, 将优先级最高的原因作为导致该访问发生连通性故障的根本原因, 即, 对应该 失败流的故障根因。
在步骤 202之后, 为了可以让该连通性故障可以被快速的排除, 让该网络可以快速的 为用户提供高质量的服务, 本申请实施例还可以包括: 基于目标故障根因, 对第一网络进 行维护。 一种情况下, 可以根据目标故障根因, 自动的、 针对性的修复该连通性故障, 恢 复该访问路径; 另一种情况下, 对于不可以自动排除的连通性故障, 可以将该目标故障根 因发送到维护管理平台或者维护人员的客户端上, 提示维护人员作出对应的修复。
可见, 在本实施例中, 通过从第一网络的多个第一成功流中确定与第一失败流相关的 第一目标成功流, 即, 确定了与该第一失败流只有少部分特征指标存在差异的第一目标成 功流,利用大量的具有较少差异的成功和失败流反复训练出第一机器学习模型, 即可快速、 准确的学习该第一目标成功流和第一失败流的特征指标之间的差异, 从而可以根据该已训 练的第一机器学习模型的输出结果准确的得出该第一失败流的目标故障根因, 如此, 实现 了对网络中发生连通性故障后产生的失败流的故障根因的准确识别, 从而节约了网络的维 护升本, 提高了用户使用网络的体验。 在介绍完本申请实施例提供的用于故障根因的识别方法之后, 下面结合附图对本申请 实施例中涉及到通过强化学习算法确定与第一失败流相关的第一目标成功流的实现方式 进行阐述。
在介绍该过程之前, 需要说明的是, 本申请实施例中, 第一网络、 第二网络和第三网 络, 可以是同一个网络, 也可以是不同的网络; 同理, 第一成功流、 第二成功流和第三成 功流可以是同一个网络中的多个相同的成功流, 也可以是同一个网络中的不同的多个成功 流, 还可以是不同网络中的不同的多个成功流; 第一失败流、 第二失败流和第三失败流, 可以是同一网络中的不同失败流, 也可以是不同网络中的失败流; 在本申请实施例中不作 具体限定。
需要说明的是,第一失败流、多个第一成功流和第一目标成功流必须是同一类型的流, 同理, 第二失败流、 多个第二成功流和第二目标成功流也必须是同一类型的流, 第三失败 流、 多个第三成功流和第三目标成功流也必须是同一类型的流。 例如: 第一失败流为 UDP 流, 那么, 多个第一成功流和第一目标成功流也必须是 UDP流。
对于强化学习样本, 除了要包括网络中的多个成功流, 还需要包括已知故障根因的失 败流, 对于训练样本中的失败流的获取方式: 一种情况下, 可以由技术人员对已有的失败 流进行人工分析和排查, 从而获得的该失败流对应的故障根因。 另一种情况下, 也可以通 过人工制造确定的连通性故障的方式, 获得失败流, 且该失败流的已知故障根因即为人工 制造的连通性故障对应的故障原因, 例如: 可以对网络中的访问采取: 人工关闭某些 IP、 下线某些应用、 改变某些防火墙策略、 改变某些路由转发路径、 制造某些超负载应用等措 施, 从而得到对应已知故障根因的失败流。
具体实现时, 为了第一失败流输入到已训练的第一机器学习模型后, 该第一机器学习 模型可以准确的为其确定出目标故障#因, 需要确定可以准确确定出第一失败流具有高相 似度的第一目标成功流, 这就需要确定出可以准确计算各第一成功流和第一失败流之间相 似度的目标系数集合, 具体的确定方法如图 6所示, 可以包括下述步骤 601〜步骤 605: 步骤 601 , 获取第三网络中第三失败流的特征指标, 以及该第三网络中多个第三成功 流的特征指标。
可以理解的是, 可以预先在训练样本集中确定训练样本, 该训练样本可以包括第三网 络中的多条第三成功流, 已知故障根因为第二已知故障根因的第三失败流。 那么, 根据步 骤 601获取该训练样本中各流的特征指标, 为后续计算相似度从而确定目标系数集合提供 了数据基础。
步骤 602, 分别基于随机选取的多个初始系数集合, 第三失败流的特征指标以及各第 三成功流的特征指标,计算各初始系数集合下,各第三成功流和第三失败流之间的相似度。
可以理解的是, 多个初始系数集合的每组初始系数集合中, 可以包括固定数目的初始 系数, 该固定数目可以由第三网络中各流包括的特征指标的数目确定。
作为一个示例, 可以采用摇臂老虎机算法产生多个初始系数集合, 具体的产生过程包 括: 确定每组初始系数集合包括 L个初始系数( L为正整数), 预先设置每个初始系数包括 n种状态, 例如: n=5 , 5 种状态分别可以是预先设置的: 0,0.2, 0.4, 0.6, 0.8; 那么, 该老虎 机则包括 条摇臂, 每条摇臂对应一个初始系数集合。
具体实现时, 可以采用 e-贪心算法随机从多个初始系数集合中选择当前要被进行强化 学习的初始系数集合。 具体实现方式可以包括: 假设预设设置 e=0.8 , 那么, 在选择初始 系数集合之前, 产生一个随机数 a, 如果 a < e, 则, 从所有的初始系数集合中随机选择一 个初始系数集合作为待强化学习的初始系数集合; 如果 a > e, 则, 从强化学习后的初始系 数集合中选择一个强化学习效果最好的 (即, 已经确定第三失败流对应的第二学习故障根 因与第三失败流对应的第二已知故障根因之间的差异中的最小差异) 的初始系数集合, 再 进行一次强化学习。 这样, 可以既保证选择的初始系数集合的随机性, 又可以对强化学习 较好的初始系数结合进行多次强化学习, 即, 即确保了选取数据的全面性, 又提升了数据 的有效性, 使强化学习更快更好的收敛。
作为另一个示例, 假设每组初始系数集合包括 L个初始系数, 那么, 可以产生预设个 数的初始系数集合, 每个初始系数集合中包括 5个随机产生的初始系数。
具体实现时, 在确定了待强化学习的初始系数集合后, 即可基于随机选取的初始系数 集合, 以及步骤 601中获取到的第三失败流的特征指标以及各第三成功流的特征指标, 根 据上述公式 ( 1) 计算在该初始系数集合下, 各第三成功流和第三失败流之间的相似度。
步骤 603, 基于计算所得的多个所述相似度, 确定每个初始系数集合下的第三失败流 对应的第三目标成功流。
可以理解的是, 可以从该多个相似度中确定一个或者多个最高的相似度, 将该一个或 者多个最高的相似度对应的第三成功流记作第三目标成功流。 作为一个示例, 可以采用上 述公式 ( 2) 计算在该初始系数集合下, 第三失败流对应的第三目标成功流。
步骤 604, 根据第三失败流的特征指标、 多个初始系数集合对应的第三目标成功流的 特征指标和第二机器学习模型, 确定每个初始系数集合下第三失败流对应的第二学习故障 根因与第三失败流对应的第二已知故障根因之间的差异。
具体实现时, 将多个初始系数集合对应的第三目标成功流分别和第三失败流输入到第 二机器学习模型, 并根据第二机器学习模型的输出结果, 确定每个初始系数集合下第三失 败流对应的第二学习故障根因与第三失败流对应的第二已知故障根因之间的差异。
可以理解的是, 该第二机器学习模型可以是构建的与第一机器学习模型结构相同的机 器学习模型, 也可以是任何训练状态下的第一机器学习模型, 在此不进行具体限定, 该第 二机器学习模型的输入可以是任何失败流以及确定的该失败流对应的目标成功流, 输出可 以表示该失败流的学习故障根因。
具体实现时, 首先, 可以根据第二机器学习模型的输出结果, 确定每个初始系数集合 下第三失败流对应的第二学习故障根因; 然后, 可以将该第二学习故障根因与第三失败流 对应的第二已知故障根因进行比较, 确定第二学习故障根因与第二已知故障根因之间的差 异。 需要说明的是, 该差异可以用于体现: 该初始系数集合用于确定失败流对应的目标成 功流, 与目标系数集合确定失败流对应的目标成功流之间的准确程度的差异。
作为一个示例, 如图 7所示, 对于每个初始系数集合, 执行步骤 604的过程具体可以 包括:
步骤 6041,基于初始系数集合, 计算各第三成功流和第三失败流之间的相似度, 并基 于计算所得的多个相似度, 确定该初始系数集合对应的第三失败流对应的第三目标成功 流。
需要说明的是, 具体实现过程可以参见步骤 602〜步骤 603中的相关描述。
步骤 6042, 将第三失败流和第三目标成功流输入到第二机器学习模型, 并根据第二机 器学习模型的输出结果, 确定第三失败流对应的第二学习故障根因。
需要说明的是, 具体实现过程可以参见步骤 202中的相关描述。
步骤 6043 ,计算第二学习故障根因与第三失败流对应的第二已知故障根因之间的第一 差异。
可以理解的是, 第二已知学习故障根因和该第二机器学习模型输出的第二学习故障根 因是不同的, 该不同由两方面的原因引起: 第一, 第二机器学习模型不是已训练的第一机 器学习模型, 第二, 确定的第三目标成功流与第三失败流相关的目标成功流存在区别。
具体实现时, 可以将第二学习故障根因和第二已知故障根因进行差异化比较, 得到第 一差异, 用于表示当前强化学习状态下存在的差异。
步骤 6044, 判断是否满足: 参数调整次数达到预设次数阈值, 或者, 当前的第二学习 故障根因与第二已知故障根因之间的第一差异小于预设差异阈值, 如果否, 则执行步骤
6045 , 否则, 执行步骤 6046。
需要说明的是, 为了弱化第二机器学习模型不是已训练的第一机器学习模型导致出现 该第一差异这一原因, 可以在同一初始系数集合确定第三目标成功流的基础上, 对该第二 机器学习模型进行多轮学习, 并记录每轮学习后的第二机器学习模型输出结果确定的第一 差异, 从而确定该初始系数集合下, 由确定的第三目标成功流与第三失败流相关的目标成 功流之间的区别, 而造成的相对准确的差异, 以便为后续确定目标系数集合提供有效的数 据基础。
可以理解的是, 对于第二机器学习模型的多轮学习的截止条件, 一种情况下, 可以预 先设置预设次数阈值(例如: 100), 那么, 需要对第二机器学习模型进行 100轮的学习, 对应的获得 100轮学习所得的 100个第一差异; 另一种情况下, 可以预先设置预设差异阈 值, 可以理解的是, 在对第二机器学习模型的多轮学习过程中, 输出的第二学习故障根因 大体上是逐渐趋近第二已知故障根因的, 即,得到的第一差异在大趋势上是减小的, 那么, 可以在第一差异小于预设差异阈值时, 停止对第二机器学习模型的学习, 得到多个第一差 异。
在一次学习过后, 判断是否满足第二机器学习模型的多轮学习的截止条件, 当不满足 时, 继续进行下次学习, 即, 执行步骤 6045; 如果满足, 则可以结束多轮学习, 执行步骤
6046。
步骤 6045 , 基于第一差异对第二机器学习模型进行参数调整, 将参数调整后的第二机 器学习模型重新作为第二机器学习模型, 并返回执行步骤 6042。
可以理解的是, 当没有进行足够轮数的对第二机器学习模型的学习, 或者, 没有对第 二机器学习模型学习到预设的效果时, 可以进入对该第二机器学习模型的下一次学习: 首 先, 可以基于该次学习产生的第一差异, 对第二机器学习模型进行参数调整; 然后, 将调 整后的第二机器学习模型重新作为新的第二机器学习模型; 接着, 将第三失败流和第三目 标成功流输入到该调整后的第二机器学习模型, 并根据调整后的第二机器学习模型的输出 结果, 确定第三失败流对应的新的第二学习故障根因; 最后, 计算该新的第二学习故障根 因与第二已知故障根因之间的第一差异。 如此往复, 直到满足了第二机器学习模型的多轮 学习的截止条件。
步骤 6046, 根据多次计算所得的多个第一差异, 确定初始系数集合对应的差异。 具体实现时,根据上述步骤 6041〜步骤 6045的多次执行,可以得到该初始系数集合下, 第三失败流的第二已知故障根因和多个第二学习故障根因之间的多个第一差异, 那么, 可 以基于多个第一差异, 确定该初始系数集合对应的差异, 即, 步骤 604中提及的 “第三失 败流对应的第二学习故障根因与第三失败流对应的第二已知故障根因之间的差异”。
作为一个示例, 可以将多个第一差异的和作为该初始系数集合对应的差异; 作为另一 示例, 也可以将多个第一差异进行求平均处理, 将得到的平均值作为该初始系数集合对应 的差异; 作为再一个示例, 还可以按照每轮学习对整体确定目标系数集合的贡献大小, 为 多个第一差异设置对应的权值, 通过第一差异以及其对应权值的加权值作为该初始系数集 合对应的差异。
需要说明的是, 对于每次选择的初始系数集合, 均可以执行步骤 602~步骤 604, 确定 每个初始系数集合下第三失败流对应的第二学习故障根因与第三失败流对应的第二已知 故障根因之间的差异, 其中, 对于每次执行步骤 604, 均可以执行图 7所示的实施例, 以 提高确定的差异的准确性。而且,为了对于每个初始系数集合可以进行相同基准下的处理, 需要在对一个初始系数集合处理完成之后, 对下一个初始系数集合处理至步骤 602时, 将 第二机器学习模型恢复到未调整之前的状态。
步骤 605, 根据多个初始系数集合和每个初始系数集合对应的差异, 确定目标系数集 合。
作为一个示例, 步骤 605具体可以通过选取的方式实现, 例如: 直接从多个初始系数 集合中, 选择最小的差异对应的初始系数集合, 作为目标系数集合。
作为另一个示例, 步骤 605具体还可以通过拟合的方式实现, 例如: 对多个初始系数 集合和每个初始系数集合对应的差异进行拟合; 确定拟合结果中最小值点对应的系数集合 为目标系数集合。 需要说明的是, 该目标系数结合可以是多个初始系数集合中的某个初始 系数集合, 也可以不属于该多个初始系数集合, 是一个完全不同的系数集合。 例如: 以浅 层神经网络模拟 “摇臂 -差异”表, 以确定最小的差异对应的目标摇臂, 读取该目标摇臂对 应的目标系数集合。
如何, 经过图 6所示的实现方式确定了目标系数集合, 可以准确为待处理的第一失败 流确定出与其相关的第一目标成功流, 即, 确定了与该第一失败流只有少部分特征指标存 在差异的第一目标成功流, 为后续利用大量的具有较少差异的成功和失败流反复训练出的 第一机器学习模型处理该第一失败流提供了有效的数据基础, 即该第一机器学习模型可以 依据第一目标成功流和第一失败流之间的特征指标的差异, 准确的输出该第一失败流的目 标故障根因, 如此, 无需通过技术人员去人工分析确定故障根因, 也弥补了采用例如图 1 的方式确定的故障根因不够准确和无法广泛推广使用的问题, 从而节约了网络的维护升 本, 提高了用户使用网络的体验。
需要说明的是, 确定目标系数集合, 还可以采用其他的方式进行训练得到, 只要得到 的目标系数集合结合已训练的第一机器学习模型, 可以确定出能够有效识别失败流的准确 故障根因即可。 该确定出的目标系数集合可以被封装为一个模型文件且被集成在一个独立 的服务器中, 也可以和第一机器学习模型以模型文件的形式被封装在一个服务器中, 被广 泛推广使用到各个网络中, 从而节约了网络的维护升本, 提高了用户使用网络的体验。 如图 8所示, 本申请实施例还示出了本申请实施例提供的一种用于故障根因的识别装 置 800。 该装置 800可包括第一确定单元 801和第二确定单元 802。
具体实现时, 该装置可用于执行上述图 2中对应的用于故障根因的识别方法。 例如: 第一确定单元 801, 用于根据第一网络中的第一失败流, 从多条第一成功流中确定与 第一失败流相关的第一目标成功流, 其中, 第一目标成功流与第一失败流具有高相似度; 第二确定单元 802, 用于 4艮据第一失败流的特征指标、 第一目标成功流的特征指标和已训 练的第一机器学习模型, 确定第一失败流的目标故障根因。
由此,本申请实施例提供的用于故障才艮因的识别装置能够通过从网络的多个成功流中 确定与失败流相似的目标成功流, 即, 确定与该失败流只有少部分特征指标存在差别的目 标成功流, 再结合利用大量的具有较少差异的成功和失败流反复训练出的第一机器学习模 型, 可以准确的学习出该待分析的失败流和其相关的目标成功流之间的特征指标的差别, 从而基于这少量存在差别的特征指标, 可以准确的输出该失败流的目标故障根因, 如此, 实现了对导致失败流发生连通性故障的故障根因的准确识别, 从而节约了网络的维护升 本, 提高了用户使用该网络的体验。
可选地, 本申请实施例还可以包括对第一机器学习模型的训练过程, 具体由该装置的 第三确定单元、 第四确定单元和训练单元实现, 即, 该装置还包括: 第三确定单元, 用于 确定第二网络中的多条第二失败流和与每条第二失败流对应的第一已知故障根因; 第四确 定单元, 用于从第二网络的多条第二成功流中为每条第二失败流分别确定一条相关的第二 目标成功流, 其中, 每条第二失败流和与其相关的第二目标成功流具有高相似度; 训练单 元, 用于根据多条第二失败流的特征指标、 与每条第二失败流对应的第一已知故障根因和 与每条第二失败流相关的第二目标成功流的特征指标进行训练, 得到第一机器学习模型。
其中, 本申请实施例的装置中所提及的流, 例如: 第一失败流、 第一目标成功流、 多 条第一成功流、 多条第二失败流、 与每条第二失败流相关的第二目标成功流和多条第二成 功流, 均为 TCP流、 IP流或者 UDP流。 可以理解的是, 第一失败流、 第一目标成功流、 多条第一成功流为同一类型的流, 同理, 多条第二失败流、 与每条第二失败流相关的第二 目标成功流和多条第二成功流也必须是同一类型的流。
可以理解的是, 第一目标成功流与第一失败流具有高相似度, 具体为: 第一目标成功 流与第一失败流之间的相似度大于预设相似度阈值, 或, 第一目标成功流与第一失败流之 间的相似度属于第一网络中的多个第一成功流与第一失败流的相似度中最大的前 N个, N 为预设值。
可选地, 该装置的第一确定单元 801, 具体可以包括: 获取子单元, 用于获取第一网 络中第一失败流的特征指标, 以及第一网络中多条第一成功流的特征指标; 计算子单元, 用于基于目标系数集合、 第一失败流的特征指标以及各第一成功流的特征指标, 计算各第 一成功流和第一失败流之间的相似度; 目标系数集合包括的每个目标系数分别与第一失败 流中的一个特征指标以及每个第一成功流中的一个特征指标对应; 第一确定子单元, 用于 将计算所得的多个相似度中最高的相似度对应的第一成功流记作第一目标成功流。
其中, 该实现方式中还可以包括对目标系数集合的确定过程, 具体可以由该装置中的 获取单元、 计算单元、 第五确定单元、 第六确定单元和第七确定单元实现, 即, 该装置还 包括: 获取单元, 用于获取第三网络中第三失败流的特征指标, 以及第三网络中多条第三 成功流的特征指标; 计算单元, 用于分别基于随机选取的多个初始系数集合, 第三失败流 的特征指标以及各第三成功流的特征指标, 计算各初始系数集合下, 各第三成功流和第三 失败流之间的相似度; 第五确定单元, 用于基于计算所得的多个相似度, 确定每个初始系 数集合下第三失败流对应的第三目标成功流; 第六确定单元, 用于根据第三失败流的特征 指标、 多个初始系数集合对应的第三目标成功流的特征指标和第二机器学习模型, 确定每 个初始系数集合下第三失败流对应的第二学习故障根因与第三失败流对应的第二已知故 障根因之间的差异; 第七确定单元, 用于根据多个初始系数集合和每个初始系数集合对应 的差异, 确定目标系数集合。 其中, 初始系数集合可以是采用 e-贪心算法随机选择的。
作为一个示例, 对于上述 “第六确定单元”, 具体可以通过下述方式实现: 第三确定 子单元, 用于基于初始系数集合, 计算各第三成功流和第三失败流之间的相似度, 并基于 计算所得的多个相似度, 确定初始系数集合对应的第三失败流对应的第三目标成功流; 处 理子单元, 用于将第三失败流和第三目标成功流输入到第二机器学习模型, 并根据第二机 器学习模型的输出结果, 确定第三失败流对应的第二学习故障根因, 计算第二学习故障根 因与第三失败流对应的第二已知故障根因之间的第一差异; 调整子单元, 用于基于第一差 异对第二机器学习模型进行参数调整, 将参数调整后的第二机器学习模型重新作为第二机 器学习模型,并返回触发所述处理子单元执行;直到满足参数调整次数达到预设次数阈值, 或者, 当前的第二学习故障根因与第二已知故障根因之间的第一差异小于预设差异阈值, 则, 触发第四确定子单元执行, 具体用于: 才艮据多次计算所得的多个第一差异, 确定初始 系数集合对应的差异。
可选地, 上述第七确定单元, 具体可以包括: 拟合子单元, 用于对多个初始系数集合 和每个初始系数集合对应的差异进行拟合; 第二确定子单元, 用于确定拟合结果中最小值 点对应的系数集合为目标系数集合。
可以理解的是, 目标故障根因包括: IP下线、 应用下线、 安全设备层异常、 路由设备 层异常、 网口出错或者应用负载过重。
可选地, 为了可以让该连通性故障可以被快速的排除, 让该网络可以快速的为用户提 供高质量的服务, 本申请实施例提供的装置还可以包括: 维护单元, 用于基于目标故障根 因, 对第一网络进行维护。
此外, 用于故障根因的识别装置 800中的第一确定单元 801和第二确定单元 802还可 实现上述方法中的其他操作或功能, 此处不再赘述。
需要说明的是, 本申请实施例的该用于故障根因的识别装置 800, 实现效果可以参见 上述图 2对应的方法实施例中的相关描述, 这里不再赘述。

Claims

图 9 示出了上述实施例中所涉及的用于故障根因的识别设备的一种可能的结构示意 图。 该用于故障根因的识别设备 900包括存储器 901、 收发器 902和处理器 903, 如图 9 所示。 所述存储器 901用于与处理器 903耦合, 其保存该用于故障根因的识别设备 900必 要的计算机程序。 具体实现时, 所述处理器 903被配置为处理该用于故障根因的识别设备 900执行图 2 所示的实施例中的方法的相应功能。 所述收发器 902用于实现上述用于故障根因的识别设 备 900 与其他设备之间的通信。 所述用于故障根因的识别设备 900 还可以包括存储器 901 , 所述存储器 901用于与处理器 903耦合, 其保存该用于故障根因的识别设备 900必 要的程序指令和数据。 可以理解的是, 该用于故障根因的识别设备 900可以使用处理器 903根据存储器 901 中的计算机可读指令执行与附图 2对应的内容, 例如 201-202, 与图 3对应的内容, 例如 301-303 , 与图 6对应的内容, 例如 601-605, 与图 7对应的内容, 例如 6041-6046。 此外, 识别设备 900还可以使用处理器 903根据存储器 901中的计算机可读指令实现图 1、 4或 5 所示的机器学习模型, 从而进行故障根因分析。 该用于故障根因的识别设备 900还可以是 图 8对应的实施例中的用于故障根因的识别装置 800。 需要说明的是, 上述用于故障根因 的识别装置 800中的各个单元(例如: 第一确定单元 801、 第二确定单元 802)可以是软 件单元也可以是硬件单元, 如果该用于故障根因的识别装置 800中的单元是软件单元, 那 么, 这些软件单元可以是存储于该用于故障根因的识别设备 900的存储器 901中的计算机 可读指令中的软件单元。 如果该用于故障根因的识别装置 800中的单元是硬件单元, 在一 个例子中, 识别装置 800中的任意一个单元可以被理解为是基于处理器 903、 存储器 901 以及存储器 901中用于实现该单元的功能的计算机可读指令实现的。 需要说明的是, 本申请实施例的该用于故障根因的识别设备 900, 实现效果可以参见 上述图 2对应的方法实施例中的相关描述, 这里不再赘述。 本申请实施例中提到的 “第一网络”、 “第一失败流” 等名称中的 “第一” 只是用来做 名字标识, 并不代表顺序上的第一。 该规则同样适用于 “第二” 等。 通过以上的实施方式的描述可知, 本领域的技术人员可以清楚地了解到上述实施例方 法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。 基于这样的理解, 本申 请的技术方案可以以软件产品的形式体现出来, 该计算机软件产品可以存储在存储介质 中, 如只读存储器(英文: read-only memory , ROM) /RAM、 磁碟、 光盘等, 包括若千指 令用以使得一台计算机设备(可以是个人计算机, 服务器, 或者诸如路由器等网络通信设 备)执行本申请各个实施例或者实施例的某些部分所述的方法。 本说明书中的各个实施例均采用递进的方式描述, 各个实施例之间相同相似的部分互 相参见即可, 每个实施例重点说明的都是与其他实施例的不同之处。 尤其, 对于装置和设 备实施例而言, 由于其基本相似于方法实施例, 所以描述得比较筒单, 相关之处参见方法 实施例的部分说明即可。 以上所描述的装置及设备实施例仅仅是示意性的, 其中作为分离 部件说明的模块可以是或者也可以不是物理上分开的, 作为模块显示的部件可以是或者也 可以不是物理模块, 即可以位于一个地方, 或者也可以分布到多个网络单元上。 可以根据 实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。 本领域普通技术人 员在不付出创造性劳动的情况下, 即可以理解并实施。 以上所述仅是本申请示例性的实施方式, 并非用于限定本申请的保护范围。 权 利 要 求
1、 一种用于故障根因的识别方法, 其特征在于, 包括:
根据第一网络中的第一失败流,从多条第一成功流中确定与所述第一失败流相关的第 一目标成功流, 其中, 所述第一目标成功流与所述第一失败流具有高相似度;
根据所述第一失败流的特征指标、所述第一目标成功流的特征指标和已训练的第一机 器学习模型, 确定所述第一失败流的目标故障根因。
2、 根据权利要求 1所述的方法, 其特征在于, 所述方法还包括:
确定第二网络中的多条第二失败流和与每条第二失败流对应的第一已知故障根因; 从所述第二网络的多条第二成功流中为每条所述第二失败流分别确定一条相关的第 二目标成功流, 其中, 每条所述第二失败流和与其相关的所述第二目标成功流具有高相似 度;
才艮据所述多条第二失败流的特征指标、与每条所述第二失败流对应的所述第一已知故 障根因和与每条所述第二失败流相关的所述第二目标成功流的特征指标进行训练, 得到所 述第一机器学习模型。
3、 根据权利要求 1或 2所述的方法, 其特征在于, 所述第一失败流、 所述第一目标 成功流、 所述多条第一成功流、 所述多条第二失败流、 与每条所述第二失败流相关的所述 第二目标成功流和所述多条第二成功流均为传输控制协议 TCP流、 互联网协议 IP流或者 用户数据报 UDP流。
4、 根据权利要求 1-3任一项所述的方法, 其特征在于, 所述第一目标成功流与所述 第一失败流具有高相似度, 具体为:
所述第一目标成功流与所述第一失败流之间的相似度大于预设相似度阈值, 或, 所述 第一目标成功流与所述第一失败流之间的相似度属于所述第一网络中的多个第一成功流 与所述第一失败流的相似度中最大的前 N个, N为预设值。
5、 根据权利要求 1-4任一项所述的方法, 其特征在于, 所述根据第一网络中的第一 失败流, 从多条成功流中确定与所述第一失败流相关的第一目标成功流, 包括:
获取所述第一网络中所述第一失败流的特征指标,以及所述第一网络中多条所述第一 成功流的特征指标;
基于目标系数集合、 所述第一失败流的特征指标以及各所述第一成功流的特征指标, 计算各所述第一成功流和所述第一失败流之间的相似度; 所述目标系数集合包括的每个目 标系数分别与所述第一失败流中的一个特征指标以及每个所述第一成功流中的一个特征 指标对应;
将计算所得的多个所述相似度中最高的相似度对应的所述第一成功流记作所述第一 目标成功流。
6、 根据权利要求 1-5任一项所述的方法, 其特征在于, 还包括:
获取第三网络中所述第三失败流的特征指标,以及所述第三网络中多条第三成功流的 特征指标;
分别基于随机选取的多个初始系数集合,所述第三失败流的特征指标以及各所述第三 成功流的特征指标, 计算各所述初始系数集合下, 各所述第三成功流和所述第三失败流之 间的相似度; 基于计算所得的多个所述相似度,确定每个所述初始系数集合下所述第三失败流对应 的所述第三目标成功流;
根据所述第三失败流的特征指标、多个所述初始系数集合对应的所述第三目标成功流 的特征指标和第二机器学习模型, 确定每个所述初始系数集合下所述第三失败流对应的第 二学习故障根因与所述第三失败流对应的第二已知故障根因之间的差异;
根据多个所述初始系数集合和每个所述初始系数集合对应的差异,确定所述目标系数 集合。
7、 根据权利要求 6所述的方法, 其特征在于, 所述根据多个所述初始系数集合和每 个所述初始系数集合对应的所述差异, 确定所述目标系数集合, 包括:
对多个所述初始系数集合和每个所述初始系数集合对应的所述差异进行拟合; 确定拟合结果中最小值点对应的系数集合为所述目标系数集合。
8、 根据权利要求 6或 7所述的方法, 其特征在于, 采用 e-贪心算法随机选择所述初 始系数集合。
9、 根据权利要求 1-8任一项所述的方法, 其特征在于, 所述目标故障根因包括: IP 下线、 应用下线、 安全设备层异常、 路由设备层异常、 网口出错或者应用负载过重。
10、 根据权利要求 1-9任一项所述的方法, 其特征在于, 还包括:
基于所述目标故障根因, 对所述第一网络进行维护。
11、 一种用于故障根因的识别装置, 其特征在于, 包括:
第一确定单元, 用于根据第一网络中的第一失败流,从多条第一成功流中确定与所述 第一失败流相关的第一目标成功流, 其中, 所述第一目标成功流与所述第一失败流具有高 相似度;
第二确定单元, 用于 4艮据所述第一失败流的特征指标、所述第一目标成功流的特征指 标和已训练的第一机器学习模型, 确定所述第一失败流的目标故障根因。
12、 根据权利要求 11所述的装置, 其特征在于, 还包括:
第三确定单元,用于确定第二网络中的多条第二失败流和与每条第二失败流对应的第 一已知故障根因;
第四确定单元,用于从所述第二网络的多条第二成功流中为每条所述第二失败流分别 确定一条相关的第二目标成功流, 其中, 每条所述第二失败流和与其相关的所述第二目标 成功流具有高相似度;
训练单元, 用于 4艮据所述多条第二失败流的特征指标、 与每条所述第二失败流对应的 所述第一已知故障根因和与每条所述第二失败流相关的所述第二目标成功流的特征指标 进行训练, 得到所述第一机器学习模型。
13、 根据权利要求 11或 12所述的装置, 其特征在于, 所述第一失败流、 所述第一目 标成功流、 所述多条第一成功流、 所述多条第二失败流、 与每条所述第二失败流相关的所 述第二目标成功流和所述多条第二成功流均为传输控制协议 TCP流、 互联网协议 IP流或 者用户数据报 UDP流。
14、 根据权利要求 11-13任一项所述的装置, 其特征在于, 所述第一目标成功流与所 述第一失败流具有高相似度, 具体为:
所述第一目标成功流与所述第一失败流之间的相似度大于预设相似度阈值, 或, 所述 第一目标成功流与所述第一失败流之间的相似度属于所述第一网络中的多个第一成功流 与所述第一失败流的相似度中最大的前 N个, N为预设值。
15、根据权利要求 11-14任一项所述的装置, 其特征在于, 所述第一确定单元, 包括: 获耳又子单元, 用于获取所述第一网络中所述第一失败流的特征指标, 以及所述第一网 络中多条所述第一成功流的特征指标;
计算子单元, 用于基于目标系数集合、所述第一失败流的特征指标以及各所述第一成 功流的特征指标, 计算各所述第一成功流和所述第一失败流之间的相似度; 所述目标系数 集合包括的每个目标系数分别与所述第一失败流中的一个特征指标以及每个所述第一成 功流中的一个特征指标对应;
第一确定子单元,用于将计算所得的多个所述相似度中最高的相似度对应的所述第一 成功流记作所述第一目标成功流。
16、 根据权利要求 11-15任一项所述的装置, 其特征在于, 还包括:
获取单元, 用于获取第三网络中所述第三失败流的特征指标, 以及所述第三网络中多 条第三成功流的特征指标;
计算单元, 用于分别基于随机选取的多个初始系数集合, 所述第三失败流的特征指标 以及各所述第三成功流的特征指标, 计算各所述初始系数集合下, 各所述第三成功流和所 述第三失败流之间的相似度;
第五确定单元, 用于基于计算所得的多个所述相似度, 确定每个所述初始系数集合下 所述第三失败流对应的所述第三目标成功流;
第六确定单元, 用于根据所述第三失败流的特征指标、 多个所述初始系数集合对应的 所述第三目标成功流的特征指标和第二机器学习模型, 确定每个所述初始系数集合下所述 第三失败流对应的第二学习故障根因与所述第三失败流对应的第二已知故障根因之间的 差异;
第七确定单元, 用于根据多个所述初始系数集合和每个所述初始系数集合对应的差 异, 确定所述目标系数集合。
17、 根据权利要求 16所述的装置, 其特征在于, 所述第七确定单元, 包括: 拟合子单元,用于对多个所述初始系数集合和每个所述初始系数集合对应的所述差异 进行拟合;
第二确定子单元, 用于确定拟合结果中最小值点对应的系数集合为所述目标系数集 合。
18、根据权利要求 16或 17所述的装置, 其特征在于, 采用 e-贪心算法随机选择所述 初始系数集合。
19、 根据权利要求 11-18任一项所述的装置, 其特征在于, 所述目标故障根因包括: IP下线、 应用下线、 安全设备层异常、 路由设备层异常、 网口出错或者应用负载过重。
20、 根据权利要求 11-19任一项所述的装置, 其特征在于, 还包括:
维护单元, 用于基于所述目标故障根因, 对所述第一网络进行维护。
PCT/CN2019/123841 2018-12-11 2019-12-07 一种用于故障根因的识别方法、装置和设备 Ceased WO2020119610A1 (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP19896877.8A EP3883185B1 (en) 2018-12-11 2019-12-07 Fault root cause identification method and apparatus and device
BR112021011097-6A BR112021011097A2 (pt) 2018-12-11 2019-12-07 Método, aparelho e dispositivo de identificação de causa raiz de falha
US17/342,659 US11956118B2 (en) 2018-12-11 2021-06-09 Fault root cause identification method, apparatus, and device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811512160.9 2018-12-11
CN201811512160.9A CN111385106B (zh) 2018-12-11 2018-12-11 一种用于故障根因的识别方法、装置和设备

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/342,659 Continuation US11956118B2 (en) 2018-12-11 2021-06-09 Fault root cause identification method, apparatus, and device

Publications (1)

Publication Number Publication Date
WO2020119610A1 true WO2020119610A1 (zh) 2020-06-18

Family

ID=71077140

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/123841 Ceased WO2020119610A1 (zh) 2018-12-11 2019-12-07 一种用于故障根因的识别方法、装置和设备

Country Status (5)

Country Link
US (1) US11956118B2 (zh)
EP (1) EP3883185B1 (zh)
CN (1) CN111385106B (zh)
BR (1) BR112021011097A2 (zh)
WO (1) WO2020119610A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114285730A (zh) * 2020-09-18 2022-04-05 华为技术有限公司 确定故障根因的方法,装置以及相关设备
US11336507B2 (en) * 2020-09-30 2022-05-17 Cisco Technology, Inc. Anomaly detection and filtering based on system logs
US11438251B1 (en) * 2022-02-28 2022-09-06 Bank Of America Corporation System and method for automatic self-resolution of an exception error in a distributed network
CN114338415B (zh) * 2022-03-08 2022-06-03 腾讯科技(深圳)有限公司 一种端口扫描方法、装置、计算机设备及存储介质
US20250080395A1 (en) * 2023-09-01 2025-03-06 Dish Wireless L.L.C. Extreme validation for fault detection

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063609A (zh) * 2014-07-01 2014-09-24 北京金控自动化技术有限公司 一种利用神经网络辅助判定污染源监测数据有效性的方法
CN106201757A (zh) * 2016-07-12 2016-12-07 网易(杭州)网络有限公司 一种异常处理方法和装置
US20170102984A1 (en) * 2015-10-13 2017-04-13 Huawei Technologies Co., Ltd. Fault Diagnosis Method and Apparatus for Big-Data Network System
CN106959662A (zh) * 2017-05-10 2017-07-18 东北大学 一种电熔镁炉异常工况识别及控制方法
CN108509975A (zh) * 2018-01-26 2018-09-07 北京三快在线科技有限公司 一种异常在线聚类方法及装置,电子设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014006692A1 (ja) * 2012-07-03 2014-01-09 富士通株式会社 制御対象フロー特定プログラム、制御対象フロー特定方法および制御対象フロー特定装置
CN103914735B (zh) * 2014-04-17 2017-03-29 北京泰乐德信息技术有限公司 一种基于神经网络自学习的故障识别方法及系统
CN106209404B (zh) * 2015-04-30 2019-05-03 华为技术有限公司 网络异常流量分析方法及系统
WO2017025773A1 (en) * 2015-08-07 2017-02-16 Telefonaktiebolaget Lm Ericsson (Publ) Root cause analysis of call failures in a communication network
US10027530B2 (en) * 2015-10-30 2018-07-17 Telefonaktiebolaget Lm Ericsson (Publ) System and method for troubleshooting SDN networks using flow statistics
US10079721B2 (en) * 2016-04-22 2018-09-18 Netsights360 Integrated digital network management platform
WO2018059687A1 (en) * 2016-09-29 2018-04-05 Telefonaktiebolaget Lm Ericsson (Publ) Handling of drop events of traffic flows
CN106453392B (zh) * 2016-11-14 2019-04-09 中国人民解放军防空兵学院 基于流量特征分布的全网络异常流识别方法
US10637715B1 (en) * 2017-05-02 2020-04-28 Conviva Inc. Fault isolation in over-the-top content (OTT) broadband networks
CN107579956B (zh) * 2017-08-07 2021-05-11 奇安信科技集团股份有限公司 一种用户行为的检测方法和装置
WO2020036110A1 (ja) * 2018-08-15 2020-02-20 ソニー株式会社 ネットワーク監視システム、ネットワーク監視方法、及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063609A (zh) * 2014-07-01 2014-09-24 北京金控自动化技术有限公司 一种利用神经网络辅助判定污染源监测数据有效性的方法
US20170102984A1 (en) * 2015-10-13 2017-04-13 Huawei Technologies Co., Ltd. Fault Diagnosis Method and Apparatus for Big-Data Network System
CN106201757A (zh) * 2016-07-12 2016-12-07 网易(杭州)网络有限公司 一种异常处理方法和装置
CN106959662A (zh) * 2017-05-10 2017-07-18 东北大学 一种电熔镁炉异常工况识别及控制方法
CN108509975A (zh) * 2018-01-26 2018-09-07 北京三快在线科技有限公司 一种异常在线聚类方法及装置,电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3883185A4

Also Published As

Publication number Publication date
EP3883185A1 (en) 2021-09-22
CN111385106B (zh) 2022-03-01
CN111385106A (zh) 2020-07-07
EP3883185B1 (en) 2025-03-26
US20210297305A1 (en) 2021-09-23
US11956118B2 (en) 2024-04-09
BR112021011097A2 (pt) 2021-08-31
EP3883185A4 (en) 2022-01-05

Similar Documents

Publication Publication Date Title
WO2020119610A1 (zh) 一种用于故障根因的识别方法、装置和设备
JP7728944B2 (ja) ブロックチェーンネットワークにおける確率的リレーのためのフロー制御
US11669751B2 (en) Prediction of network events via rule set representations of machine learning models
CN109768940B (zh) 多业务sdn网络的流量分配方法及装置
CN104584483B (zh) 用于自动确定服务质量降级的原因的方法和设备
US9300577B2 (en) Application intelligent request management based on server health and client information
WO2021052379A1 (zh) 一种数据流类型识别方法及相关设备
CN116055324B (zh) 一种用于数据中心网络自优化的数字孪生方法
US20200280519A1 (en) Load Balancer Metadata Forwarding On Secure Connections
CN111835579A (zh) 一种网络流量调度仿真有效性的测试方法及系统
Ayan et al. Quality of service management in telecommunication network using machine learning technique
Tong et al. Machine learning based root cause analysis for SDN network
KR20220029142A (ko) Sdn 컨트롤러 서버 및 이의 sdn 기반 네트워크 트래픽 사용량 분석 방법
Zhang et al. Achieving high availability in inter-DC WAN traffic engineering
US20250068438A1 (en) Autonomous generation of network and device configurations
CN114124660B (zh) 一种修复网络故障的方法及系统
CN117081995B (zh) 基于分布式限速策略的云网络服务级别协议保障方法及系统
CN116367223B (zh) 基于强化学习的xr服务优化方法、装置、电子设备和存储介质
CN117579534A (zh) 智能路由方法、装置、电子设备及存储介质
Sedaghat et al. R2T-DSDN: reliable real-time distributed controller-based SDN: S. Sedaghat, AH Jahangir
CN116723154A (zh) 一种基于负载均衡的路由分发方法及系统
Xu et al. Minimizing multi-controller deployment cost in software-defined networking
TWI718778B (zh) 聯網裝置及其流量預估方法
CN110365582A (zh) 一种基于sdn网络的多约束路由方法、一种控制器
Akinola et al. Performance Modeling of Software-Defined Networking Paradigm in a Public Health Management System.

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19896877

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: 112021011097

Country of ref document: BR

ENP Entry into the national phase

Ref document number: 2019896877

Country of ref document: EP

Effective date: 20210617

ENP Entry into the national phase

Ref document number: 112021011097

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20210609