WO2017101301A1

WO2017101301A1 - 数据信息处理方法及装置

Info

Publication number: WO2017101301A1
Application number: PCT/CN2016/088128
Authority: WO
Inventors: 刘宏斌; 国铁龙
Original assignee: Le Holdings Beijing Co Ltd; LeTV Information Technology Beijing Co Ltd
Current assignee: Le Holdings Beijing Co Ltd; LeTV Information Technology Beijing Co Ltd
Priority date: 2015-12-14
Filing date: 2016-07-01
Publication date: 2017-06-22
Anticipated expiration: 2018-06-14
Also published as: EP3206146A1; EP3206146A4; CN105868521A

Abstract

一种数据信息处理方法及装置，该方法包括：在对数据处理时，获取对所述数据进行处理的任务逻辑（S101）；根据所述任务逻辑的执行逻辑，确定与所述任务逻辑相对应的输入数据和输出数据（S102）；确定所述输入数据和输出数据的血缘关系信息（S103）；针对多个存储数据，根据每个所述存储数据的血缘关系信息，建立所述多个存储数据之间的血缘关系网络（S104）。利用该方法，可以在该网络中的某一个数据出现问题时，可以通过该血缘关系网络中的其它疑似问题数据，以便于技术人员将出现质量问题的数据剔除或修改，提高存储的数据的质量。

Description

数据信息处理方法及装置

本申请要求于2015年12月14日提交中国专利局、申请号为201510927475.X、发明名称为“数据信息处理方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本公开涉及数据信息处理技术领域，尤其涉及一种数据信息处理方法及装置。

背景技术

数据是组织最具价值的资产之一。企业的数据质量与业务绩效之间存在着直接联系，高质量的数据可以使公司保持竞争力并在经济动荡时期立于不败之地。有了普遍深入的数据质量，企业在任何时候都可以信任满足所有需求的所有数据。

数据质量管理，是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题，进行识别、度量、监控、预警等一系列管理活动，并通过改善和提高组织的管理水平使得数据质量获得进一步提高。

在目前的数据质量管理过程中，大量数据采用手工录入，使得数据之间相对分散，而实际在数据产生过程中，不同数据之间可能具有一定关联性，这就导致当数据量较大时，一旦某一个数据质量出现问题，无法及时有效发现与该出现质量问题相关的其它数据，进而导致数据可能存在隐患，使得数据质量降低。

发明内容

为克服相关技术中存在的问题，本公开提供一种数据信息处理方法及装置。

根据本公开实施例的第一方面，提供一种数据信息处理方法，该方法包括：

在对数据处理时，获取对所述数据进行处理的任务逻辑；

根据所述任务逻辑的执行逻辑，确定与所述任务逻辑相对应的输入数据和输出数据；

确定所述输入数据和输出数据的血缘关系信息；

针对多个存储数据，根据每个所述存储数据的血缘关系信息，建立所述多个存储数据之间的血缘关系网络。

可选地，所述血缘关系信息至少包括：数据流向；

所述任务逻辑包括：数据格式转换和数据运算中的任意一种。

可选地，所述建立所述多个存储数据之间的血缘关系网络，包括：

生成包含所述多个存储数据的节点图，每个存储数据在所述节点图中以节点的形式展现；

判断所述节点图中任意两个节点之间是否存在血缘关系；

当两个节点之间存在血缘关系时，根据血缘关系信息在所述两个节点之间标示出所述两个节点之间的数据流向。

可选地，所述方法还包括：

当检测到具有质量问题的问题数据时，获取所述问题数据所在的目标血缘关系网络；

在所述目标血缘网络中查找与所述问题数据之间具有血缘关系的所有数据；

将查找到的数据确定为疑似问题数据。

可选地，所述方法还包括：

判断是否检测到对所述血缘关系网络中的第一数据进行数据处理；

当检测到对所述血缘关系网络中的第一数据进行数据处理时，根据本次任务逻辑获取与所述第一数据相关联第二数据的血缘关系信息；

根据所述第二数据的血缘关系信息，在所述血缘关系网络中增加与所述第二数据相对应的节点。

根据本公开实施例的第二方面，提供一种数据信息处理装置，包括：

任务逻辑获取模块，用于在对数据处理时，获取对所述数据进行处理的任务逻辑；

关联数据确定模块，用于根据所述任务逻辑的执行逻辑，确定与所述任务逻辑相对应的输入数据和输出数据；

血缘关系信息确定模块，用于确定所述输入数据和输出数据的血缘关系信息；

网络建立模块，用于针对多个存储数据，根据每个所述存储数据的血缘关系信息，建立所述多个存储数据之间的血缘关系网络。

可选地，所述血缘关系信息至少包括：数据流向；

可选地，所述网络建立模块，包括：

节点图生成子模块，用于生成包含所述多个存储数据的节点图，每个存储数据在所述节点图中以节点的形式展现；

血缘关系判断子模块，用于判断所述节点图中任意两个节点之间是否存在血缘关系；

数据流向标示子模块，用于当两个节点之间存在血缘关系时，根据血缘关系信息在所述两个节点之间标示出所述两个节点之间的数据流向。

可选地，所述装置还包括：

第一血缘关系网络获取模块，用于当检测到具有质量问题的问题数据时，获取所述问题数据所在的目标血缘关系网络；

数据查找模块，用于在所述目标血缘网络中查找与所述问题数据之间具有血缘关系的所有数据；

疑似问题数据确定模块，用于将查找到的数据确定为疑似问题数据。

可选地，所述装置还包括：

数据处理判断模块，用于判断是否检测到对所述血缘关系网络中的第一数据进行数据处理；

第二血缘关系信息获取模块，用于当检测到对所述血缘关系网络中的第一数据进行数据处理时，根据本次任务逻辑获取与所述第一数据相关联第二数据的血缘关系信息；

节点增加模块，用于根据所述第二数据的血缘关系信息，在所述血缘关系网络中增加与所述第二数据相对应的节点。

根据本公开实施例的第三方面，提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可实现本发明第一方面提供的数据信息处理方法的各实现方式中的部分或全部步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：

本发明实施例提供的该方法，在对数据处理时，获取对该数据进行处理的任务逻辑，然后根据该任务逻辑的执行逻辑，确定与所述任务逻辑相对应的输入数据和输出数据；确定所述输入数据和输出数据的血缘关系信息；针对多个存储数据，根据每个所述存储数据的血缘关系信息，建立所述多个存储数据之间的血缘关系网络。

通过该方法，对于任意一个处理的数据，通过获取对应的任务逻辑的执行逻辑，确定和该任务逻辑相关的输入数据和输出数据，由于输入数据和输出数据之间存在有任务逻辑，因此可以确定二者之间是具有血缘关系，然后针对每个存储的数据均通过该方法确定数据之间的血缘关系，最终可以得到所有存储数据之间的血缘关系网络。利用该方法，可以在该网络中的某一个数据出现问题时，可以通过该血缘关系网络中的其它疑似问题数据，以便于技术人员将出现质量问题的数据剔除或修改，提高存储的数据的质量。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种数据信息处理方法的流程图；

图2为图1中步骤S103的流程示意图；

图3为本发明实施例提供的节点的示意图；

图4为本发明实施例提供的一种血缘关系网络的示意图；

图5本发明实施例提供的另一种数据信息处理方法的流程图；

图6本发明实施例提供的又一种数据信息处理方法的流程图；

图7为本发明实施例提供的另一种血缘关系网络的示意图；

图8为本发明实施例提供的一种数据信息处理装置的结构示意图；

图9为图8中的网络建立模块的结构示意图；

图10为本发明实施例提供的另一种数据信息处理装置的结构示意图；

图11为本发明实施例提供的又一种数据信息处理装置的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是本发明实施例提供的一种数据信息处理方法的流程图。该数据信息处理方法可以应用于服务器中，如图1所示，该方法可以包括以下步骤。

步骤S101：在对数据处理时，获取对所述数据进行处理的任务逻辑。

在不同的存储媒介中，数据的形式可以均不相同。为了描述方便，在本发明实施例中，以数据单元来描述数据。一般而言，每个数据处理任务的输出目标可以作为一个数据单元，另外，每个数据处理任务的输入源也可以作为一个数据单元。例如：在关系型数据库中，数据表中的每一个单元格可以作为一个数据单元；另外，在前端展现中，报表也可以作为一个数据单元。

参见上述描述，在该步骤中，可以以数据单元为对象，获取对该数据单元进行处理的任务逻辑。

在本发明实施例中，任务逻辑是指对数据进行处理的方式，例如：数据格式转换和数据运算等。

步骤S102：根据所述任务逻辑的执行逻辑，确定与所述任务逻辑相对应的输入数据和输出数据。

对于每个任务逻辑而言，均有执行逻辑。在本发明实施例中，执行逻辑是指数据之间的流向，以数据格式转换为例，格式转换前的数据为输入数据，格式转换后的数据为输出数据，以数据运算为例，数据运算前的每个参数均可以为输入数据，数据运算后得到的数据为输出数据。

步骤S103：确定所述输入数据和输出数据的血缘关系信息。

由于输入数据和输出数据均与同一任务逻辑相关联，所以，输出数据是将输入数据进行处理后得到的，因此，可以确定输入数据和输出数据之间存在关联关系。

在本发明实施例中，血缘关系信息至少可以包括：数据流向。

步骤S104：针对多个存储数据，根据每个所述存储数据的血缘关系信息，建立所述多个存储数据之间的血缘关系网络。

对于服务器中记录到的每个存储数据，均可以得到可以和该存储数据对应的血缘关系信息，这样，在存储数据积累过程中，可以同时得到每个存储数据的血缘关系信息，利用这些血缘关系信息，就可以得到存储数据之间的流向关系，因此，在该步骤中可以通过存储数据之间的流向关系，将所有存储数据之间关系梳理清楚，得到这多个存储数据之间的血缘关系网络，也即数据之间的“族谱图”，通过“族谱图”可以找到每个节点的父节点(即输入数据)以及子节点(即输出数据)。

通过该方法，对于任意一个处理的数据，通过获取对应的任务逻辑的执行逻辑，确定和该任务逻辑相关的输入数据和输出数据，由于输入数据和输出数据之间存在有任务逻辑，因此可以确定二者之间是具有血缘关系，然后针对每个存储的数据均通过该方法确定数据之间的血缘关系，最终可以得到所有存储数据之间的血缘关系网络。进而当该网络中的某一个数据出现问题时，可以通过该血缘关系网络中的其它疑似问题数据，以便于技术人员将出现质量问题的数据剔除或修改，提高存储的数据的质量。

在本发明另一实施例中，如图2所示，上述图1所示的步骤S103可以包括以下步骤。

步骤S1031：生成包含所述多个存储数据的节点图。

在本发明实施例中，每个存储数据在所述节点图中以节点的形式展现。如图3所示，每个圆圈为一个节点，表示一个数据，在节点上均设置有和该数据对应编号。

步骤S1032：判断所述节点图中任意两个节点之间是否存在血缘关系。

在该步骤中，通过判断两个节点之间是否具有任务逻辑的方式，来判断这两个节点之间是否存在血缘关系。

当两个节点之间存在血缘关系时，执行步骤S1033。否则，结束流程。

步骤S1033：根据血缘关系信息在所述两个节点之间标示出所述两个节点之间的数据流向。

如图4所示，在节点之间可以通过箭头的方式，标示出两个节点之间的数据流向，进而得到血缘关系网络。

在本发明其它实施例中，如图5所示，当建立多个存储数据之间的血缘关系网络后，该方法还可以包括以下步骤。

步骤S201：当检测到具有质量问题的问题数据时，获取所述问题数据所在的目标血缘关系网络。

当检测到问题数据后，通过查找前面建立的所有血缘关系网络，可以查找出该问题数据所在的目标血缘关系网络。以上述图4为例，当问题数据为节点12对应的数据时，可以将图4所示的血缘关系网络确定为目标血缘关系网络。

步骤S202：在所述目标血缘网络中查找与所述问题数据之间具有血缘关系的所有数据。

当图4中节点12对应的数据为问题数据时，查找与该数据之间具有任务逻辑所有节点，例如：图4中和节点12之间具有直接任务逻辑的节点为：11、14和15，图4中和节点12具有间接任务逻辑的节点为：14、16、17、18和19。

步骤S203：将查找到的数据确定为疑似问题数据。

当将节点12作为输出数据时，对应的直接输入数据可以包括：节点11和节点14，并且对于节点14而言，节点19为节点14的直接输入数据，当将节点12作为输入数据时，对应的直接输出数据可以包括：节点15和节点17，对于节点15而言，对应的直接输出数据为节点14和节点16，对于节点17而言，对应的直接输出数据为节点18。

一旦确定节点12对应的数据为问题数据时，由于节点11、14和15，以及，节点14、16、17、18和19均和节点12相关联，所以，这些节点均可以作为疑似问题数据。

通过本发明实施例提供的该方法，在大量存储数据中，一旦确定出某一个节点出现质量问题时，可以快速通过血缘关系网络查找到和该出现质量问题的节点相关联的所有节点作为疑似问题数据，进而可以对本次出现质量问题的数据进行快速定位，进而为解决数据问题提供有力保障。

在本发明另一实施例中，对于网络中的每个节点对应的数据，还可能被作为输入数据进行数据处理，相应地，如图6所示，该方法还可以包括以下步骤。

步骤S301：判断是否检测到对所述血缘关系网络中的第一数据进行数据处理。

对于数据库中存储的数据，可能会被前端调用，并且以这些存储的数据作为数据处理的基础，即将这些存储的数据作为输入数据进行逻辑运算，因此，在该步骤中，可以实时检测是否对血缘关系网络中的第一数据进行数据处理。

当检测到对所述血缘关系网络中的第一数据进行数据处理时，执行步骤S302；否则，结束流程。

步骤S302：根据本次任务逻辑获取与所述第一数据相关联第二数据的血缘关系信息。

当将第一数据作为输入数据，对第一数据进行数据处理时，在数据处理后得到的目标数据可以为第二数据，然后获取第一数据和第二数据之间的血缘关系信息。

步骤S303：根据所述第二数据的血缘关系信息，在所述血缘关系网络中增加与所述第二数据相对应的节点。

以图4为例，当以节点18为输入数据进行数据处理时，若生成的第二数据为节点x，如图7所示，可以在图4的基础上，增加上节点x，并且标示出节点18和节点x之间的数据流向。

基于同一公开构思，本公开实施例还提供了一种数据信息处理装置。图8为本发明实施例提供的一种数据信息处理装置的结构示意图，如图8所示，该数据信息处置装置可以包括：

任务逻辑获取模块11，用于在对数据处理时，获取对所述数据进行处理的任务逻辑。

在本发明实施例中，任务逻辑是指对数据进行处理的方式，例如：数据格式转换和数据运算等

关联数据确定模块12，用于根据所述任务逻辑的执行逻辑，确定与所述任务逻辑相对应的输入数据和输出数据。

血缘关系信息确定模块13，用于确定所述输入数据和输出数据的血缘关系信息。

网络建立模块14，用于针对多个存储数据，根据每个所述存储数据的血缘关系信息，建立所述多个存储数据之间的血缘关系网络。

在本发明另一实施例中，如图9所示，上述图8实施例中所示的网络建立模块14可以包括：

节点图生成子模块141，用于生成包含所述多个存储数据的节点图，每个存储数据在所述节点图中以节点的形式展现。

血缘关系判断子模块142，用于判断所述节点图中任意两个节点之间是否存在血缘关系。

在本发明实施例中，通过判断两个节点之间是否具有任务逻辑的方式，来判断这两个节点之间是否存在血缘关系。

数据流向标示子模块143，用于当两个节点之间存在血缘关系时，根据血缘关系信息在所述两个节点之间标示出所述两个节点之间的数据流向。

如图4所示，在节点之间可以通过箭头的方式，标示出两个节点之间的数据流向。

在本发明另一实施例中，如图10所示，本发明实施例提供的该数据信息处理装置还可以包括：

第一血缘关系网络获取模块21，用于当检测到具有质量问题的问题数据时，获取所述问题数据所在的目标血缘关系网络。

数据查找模块22，用于在所述目标血缘网络中查找与所述问题数据之间具有血缘关系的所有数据。

疑似问题数据确定模块23，用于将查找到的数据确定为疑似问题数据。

通过本发明实施例提供的该装置，在大量存储数据中，一旦确定出某一个节点出现质量问题时，可以快速通过血缘关系网络查找到和该出现质量问题的节点相关联的所有节点作为疑似问题数据，进而可以对本次出现质量问题的数据进行快速定位，进而为解决数据问题提供有力保障。

在本发明另一实施例中，如图11所示，本发明实施例提供的该数据信息处理装置还可以包括：

数据处理判断模块31，用于判断是否检测到对所述血缘关系网络中的第一数据进行数据处理。

第二血缘关系信息获取模块32，用于当检测到对所述血缘关系网络中的第一数据进行数据处理时，根据本次任务逻辑获取与所述第一数据相关联第二数据的血缘关系信息。

节点增加模块33，用于根据所述第二数据的血缘关系信息，在所述血缘关系网络中增加与所述第二数据相对应的节点。

本发明实施例还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可实现图1-图7所示实施例提供的数据信息处理方法的各实现方式中的部分或全部步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

一种数据信息处理方法，其特征在于，包括：

在对数据处理时，获取对所述数据进行处理的任务逻辑；

根据所述任务逻辑的执行逻辑，确定与所述任务逻辑相对应的输入数据和输出数据；

确定所述输入数据和输出数据的血缘关系信息；

针对多个存储数据，根据每个所述存储数据的血缘关系信息，建立所述多个存储数据之间的血缘关系网络。
根据权利要求1所述的方法，其特征在于，所述血缘关系信息至少包括：数据流向；

所述任务逻辑包括：数据格式转换和数据运算中的任意一种。
根据权利要求1所述的方法，其特征在于，所述建立所述多个存储数据之间的血缘关系网络，包括：

生成包含所述多个存储数据的节点图，每个存储数据在所述节点图中以节点的形式展现；

判断所述节点图中任意两个节点之间是否存在血缘关系；

当两个节点之间存在血缘关系时，根据血缘关系信息在所述两个节点之间标示出所述两个节点之间的数据流向。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

当检测到具有质量问题的问题数据时，获取所述问题数据所在的目标血缘关系网络；

在所述目标血缘网络中查找与所述问题数据之间具有血缘关系的所有数据；

将查找到的数据确定为疑似问题数据。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

判断是否检测到对所述血缘关系网络中的第一数据进行数据处理；

当检测到对所述血缘关系网络中的第一数据进行数据处理时，根据本次任务逻辑获取与所述第一数据相关联第二数据的血缘关系信息；

根据所述第二数据的血缘关系信息，在所述血缘关系网络中增加与所述第二数据相对应的节点。
一种数据信息处理装置，其特征在于，包括：

任务逻辑获取模块，用于在对数据处理时，获取对所述数据进行处理的任务逻辑；

关联数据确定模块，用于根据所述任务逻辑的执行逻辑，确定与所述任务逻辑相对应的输入数据和输出数据；

血缘关系信息确定模块，用于确定所述输入数据和输出数据的血缘关系信息；

网络建立模块，用于针对多个存储数据，根据每个所述存储数据的血缘关系信息，建立所述多个存储数据之间的血缘关系网络。
根据权利要求6所述的装置，其特征在于，所述血缘关系信息至少包括：数据流向；

所述任务逻辑包括：数据格式转换和数据运算中的任意一种。
根据权利要求6所述的装置，其特征在于，所述网络建立模块，包括：

节点图生成子模块，用于生成包含所述多个存储数据的节点图，每个存储数据在所述节点图中以节点的形式展现；

血缘关系判断子模块，用于判断所述节点图中任意两个节点之间是否存在血缘关系；

数据流向标示子模块，用于当两个节点之间存在血缘关系时，根据血缘关系信息在所述两个节点之间标示出所述两个节点之间的数据流向。
根据权利要求6所述的装置，其特征在于，所述装置还包括：

第一血缘关系网络获取模块，用于当检测到具有质量问题的问题数据时，获取所述问题数据所在的目标血缘关系网络；

数据查找模块，用于在所述目标血缘网络中查找与所述问题数据之间具有血缘关系的所有数据；

疑似问题数据确定模块，用于将查找到的数据确定为疑似问题数据。
根据权利要求6所述的装置，其特征在于，所述装置还包括：

数据处理判断模块，用于判断是否检测到对所述血缘关系网络中的第一数据进行数据处理；

第二血缘关系信息获取模块，用于当检测到对所述血缘关系网络中的第一数据进行数据处理时，根据本次任务逻辑获取与所述第一数据相关联第二数据的血缘关系信息；

节点增加模块，用于根据所述第二数据的血缘关系信息，在所述血缘关系网络中增加与所述第二数据相对应的节点。