WO2024254894A1

WO2024254894A1 - 一种基于单机的大规模图数据处理系统

Info

Publication number: WO2024254894A1
Application number: PCT/CN2023/101407
Authority: WO
Inventors: 朱筱可; 刘阳; 刘书昊; 樊文飞
Original assignee: Shenzhen Institute of Computing Sciences
Current assignee: Shenzhen Institute of Computing Sciences
Priority date: 2023-06-12
Filing date: 2023-06-20
Publication date: 2024-12-19
Anticipated expiration: 2025-12-12
Also published as: CN116680296B; CN116680296A

Abstract

本申请提供了一种基于单机的大规模图数据处理系统，包括数据加载模块、数据计算模块、数据释放模块、存储管理模块和磁盘；数据加载模块用于从磁盘获取状态为活跃的子图，并将子图传输至数据计算模块；数据计算模块用于对子图进行更新，并将更新产生的消息传输至存储管理模块；数据计算模块还用于将子图传输至数据释放模块；数据释放模块用于将子图写入磁盘；当子图被写入磁盘时，存储管理模块用于将子图的状态设置为收敛。通过将基于子图中心的计算模型应用到单机系统，并且建立一套独特的流水线处理架构，该架构能够重叠数据I/O和CPU操作，从而降低传统的顶点中心计算模型的I/O成本同时提高CPU利用率，并促进对磁盘的顺序访问。

Description

一种基于单机的大规模图数据处理系统

技术领域

本申请涉及数据处理技术领域，特别是一种基于单机的大规模图数据处理系统。

背景技术

近年来，由于图数据易于抽象真实世界中的实体与关系，它已经成为数据科学和工程领域备受重视的话题，并被广泛应用于社交网络分析、推荐系统、金融欺诈检测、药物发现等多个领域，同时，图数据具有很高的灵活性，许多原本使用矩阵、关系或其他数据结构进行建模的问题也可以转换为图数据处理，进一步凸显了图数据的重要性。随着社交媒体和移动互联网应用的增强，计算机系统产生或收集的抽象图数据规模正在飞速增长，这种量级上的增长对现代计算机系统的大规模数据存储、分析和挖掘能力提出了极其尖锐的挑战。

传统的大规模图计算系统使用数据划分的并行化方法，即整合多台计算机资源以完成图计算任务。尽管这些计算系统在大图处理领域扮演着重要角色，但由于高昂的维护和构建成本，只有少数拥有大规模计算机集群的公司能够进行大规模图计算，此外，分布式计算系统通常基于一个假设，即使用更多的计算节点会减少计算时间，但实际上这一假设并不总是成立，增加计算节点可能会导致更大的通信代价，从而无法显著提升系统性能。

针对大规模图分析的实际需求和资源受限的使用场景，一系列基于单机的大规模图处理系统被提出。这些系统利用外存作为内存拓展来处理大图，并采用基于顶点中心的计算模型(该模型将计算过程中的信息局限在节点之间传递)，以提升数据局部性，简化用户使用负担。尽管基于顶点中心的计算模型简单易懂，但也存在通信开销或I/O开销较高的问题。

发明内容

鉴于上述问题，提出了本申请以便提供克服所述问题或者至少部分地解决所述问题的一种基于单机的大规模图数据处理系统，包括：

一种基于单机的大规模图数据处理系统，包括数据加载模块、数据计算模块、数据释放模块、存储管理模块和磁盘；所述磁盘存储有由若干子图构成的大规模图数据；所述存储管理模块存储有与每一所述子图对应的状态信息；初始状态下，所述子图的状态为活跃；

所述数据加载模块用于从所述磁盘获取状态为活跃的所述子图，并将所述子图传输至所述数据计算模块；

所述数据计算模块用于对所述子图进行更新，并将更新产生的消息传输至所述存储管理模块；

当更新后的所述子图存在改变时，所述数据计算模块还用于将所述子图传输至所述数据释放模块；

当所述子图非当前轮更新中的最后一个时，所述数据释放模块用于将所述子图写入所述磁盘；

当所述子图被写入所述磁盘时，所述存储管理模块用于将所述子图的状态设置为收敛。

优选的，当更新后的所述子图不存在改变时，所述数据计算模块还用于将所述子图写入所述磁盘。

优选的，当所述子图为当前轮更新中的最后一个时，所述数据释放模块还用于将所述子图传输至所述数据加载模块。

优选的，当当前轮更新结束时，所述存储管理模块还用于将接收到消息的所述子图的状态设置为活跃。

优选的，当当前轮更新结束且所述存储管理模块中不存在消息缓存时，所述数据计算模块还用于对全部所述子图进行聚合，得到更新后的大规模图数据。

优选的，所述存储管理模块包括消息存储单元和状态管理单元；所述状态管理单元存储有所述状态信息；

所述数据计算模块用于将更新产生的消息传输至所述消息存储单元；

当当前轮更新结束时，所述状态管理单元用于将接收到消息的所述子图的状态设置为活跃。

优选的，所述数据计算模块包括聚合计算单元；

当当前轮更新结束且所述消息存储单元内不存在消息缓存时，所述聚合计算单元用于对全部所述子图进行聚合，得到更新后的大规模图数据。

优选的，当所述子图被所述数据加载模块获取时，所述存储管理模块还用于将所述子图的状态设置为等待计算。

优选的，当所述子图被传输至所述数据计算模块时，所述存储管理模块还用于将所述子图的状态设置为正在计算。

优选的，当所述子图被传输至所述数据释放模块时，所述存储管理模块还用于将所述子图的状态设置为释放中。

本申请具有以下优点：

在本申请的实施例中，相对于现有基于单机的大规模图处理系统通信开销或I/O开销较高的问题，本申请提供了将基于子图中心的计算模型应用到单机系统并建立一套流水线处理架构的解决方案，具体为：“一种基于单机的大规模图数据处理系统，包括数据加载模块、数据计算模块、数据释放模块、存储管理模块和磁盘；所述磁盘存储有由若干子图构成的大规模图数据；所述存储管理模块存储有与每一所述子图对应的状态信息；初始状态下，所述子图的状态为活跃；所述数据加载模块用于从所述磁盘获取状态为活跃的所述子图，并将所述子图传输至所述数据计算模块；所述数据计算模块用于对所述子图进行更新，并将更新产生的消息传输至所述存储管理模块；当更新后的所述子图存在改变时，所述数据计算模块还用于将所述子图传输至所述数据释放模块；当所述子图非当前轮更新中的最后一个时，所述数据释放模块用于将所述子图写入所述磁盘；当所述子图被写入所述磁盘时，所述存储管理模块用于将所述子图的状态设置为收敛”。通过将基于子图中心的计算模型应用到单机系统，并且建立一套独特的流水线处理架构，该架构能够重叠数据I/O和CPU操作，从而降低传统的顶点中心计算模型的I/O成本同时提高CPU利用率，并促进对磁盘的顺序访问，此外，该架构采用共享内存数据结构进行消息传递和高效同步，能够将计算从内存管理和调度中分离出来，从而为优化提供了新的机会。

附图说明

为了更清楚地说明本申请的技术方案，下面将对本申请的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是顶点中心模型和子图中心模型上的连通分量计算过程示意图；

图2是本申请一实施例提供的一种大规模图数据处理系统的处理架构示意图；

图3是本申请一实施例提供的一种大规模图数据处理系统的状态管理及优化策略示意图。

具体实施方式

为使本申请的所述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请做进一步详细的说明。显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

发明人通过分析现有技术发现，基于顶点中心的计算模型无疑会因为顶点之间消息的传递带来额外的通信开销或I/O开销，如图1所示，在输入图G上完成连通分量的计算，采用基于子图中心的计算模型(该模型允许计算过程中的信息在子图内部自由传递)比采用基于顶点中心的计算模型明显拥有更少的计算步骤。

但是，传统的基于子图中心的计算模型是为多机系统设计的，还没有工作将基于子图中心的计算模型引入单机环境中，因此有一些问题尚未明确，例如：当通信代价潜在地转换为I/O代价之后，引入基于子图中心的计算模型，能否系统地降低核外图系统的I/O成本并提高多核并行性？传统的基于子图中心的计算模型要求对图执行更细粒度的划分来提升并行度，但是这样做的代价是更多冗余的控制信息，比如全局顶点ID到本地顶点ID的映射，这一问题在分布式环境下可以通过为每台计算节点分配足够多的内存解决，但是在单机多核环境下更细粒度的图划分会占据本就珍贵的内存资源。

发明人认为，将基于子图中心的计算模型扩展到单机系统将面临以下改进需求：当输入图超过内存容量时，单机系统需要借助辅助存储器(如硬盘、SSD等)作为内存扩展进行计算，因此需要合理管理图在内存和磁盘间的调度；传统的基于子图中心的计算模型通过计算机网络在计算单元之间传递消息以进行同步，但在共享内存的情况下，单机系统的同步逻辑发生了改变，因此，需要更有效地实现消息同步；基于子图中心的计算模型仅利用数据分区并行性，这可能导致在内存容量有限的情况下，CPU内核利用率不足或图碎片过多，因此，需要平衡考虑子图间的并行计算与子图内的并行计算；由于单机系统共享内存架构，工作迁移在单个机器的核心之间的成本很低，因此，需要采用灵活的资源调度来提高系统性能。

本实施例中，提供一种基于单机的大规模图数据处理系统，包括数据加载模块、数据计算模块、数据释放模块、存储管理模块和磁盘；所述磁盘存储有由若干子图构成的大规模图数据；所述存储管理模块存储有与每一所述子图对应的状态信息；初始状态下，所述子图的状态为活跃；

在本申请的实施例中，相对于现有基于单机的大规模图处理系统通信开销或I/O开销较高的问题，本申请将基于子图中心的计算模型应用到单机系统，并建立了一套流水线处理架构。参照图2，给定一个大图G(大图G最初存储在磁盘上)，所述流水线处理架构以图G的子图{F0,F1,F2,F3,...,Fn-1}作为最小输入输出单元，并以流水线迭代地对大图G进行更新，具体来说，该架构将子图Fi的核外处理分解为三个连续阶段：将Fi读入内存，计算并更新Fi，以及如果需要，将更新后的Fi写回外存，通过三个模块，即数据加载模块、数据计算模块和数据释放模块完成这些阶段，这些模块在流水线处理架构中，通过两个任务队列“输入队列”和“输出队列”异步工作。

所述流水线处理架构有效地重叠了子图I/O和CPU操作，在内存子图上进行计算，同时从磁盘加载挂起的子图，可以降低传统的顶点中心计算模型的I/O成本，同时通过减少空闲等待提高CPU的利用率，并且能够连续访问磁盘；此外，该架构采用共享内存数据结构进行消息传递和高效同步，能够将计算从内存管理和调度中分离出来，从而为优化提供了新的机会。

下面，将对本示例性实施例中一种基于单机的大规模图数据处理系统做进一步地说明。

本实施例中，所述系统采用基于混合计算模型的APIs。该APIs采用统一的PIE+接口，这一套接口集成了顶点中心和子图中心的编程模型，用户不仅可以在基于子图中心的计算模型下并行化顺序图算法以简化并行编程(子图间并行)，还可以通过新的接口进一步探索基于顶点中心计算模型的子图内部的并行性。需要说明的是，所述混合模型同时支持“子图中心计算模型”的子图间并行和“顶点中心的计算模型”的子图内并行，在有限内存下，可以更好地利用多核资源，避免输入图的碎片化；此外，它还提供了一个统一的界面，用户可以从中选择最适合他们的应用程序和图形的界面。

本实施例中，所述系统还包括调度器。所述调度器用于在线程池中跟踪并分配线程，其中每个线程对应于一个物理CPU核心，它决定将物理线程分配给虚拟工作线程，以便在子图上执行(并行)计算，它还进行主动调整以支持两级并行：当线程可用时，所述调度器通过消耗“输入队列”来将其分配给新的计算单元，以加快子图间的并行性，或通过正在运行的工作核心来改善子图内的并行性。

本实施例中，所述存储管理模块包括消息存储单元；所述数据计算模块用于将更新产生的消息传输至所述消息存储单元。所述消息存储单元用于实现并行计算单元之间的消息同步。具体的，所述消息存储单元被实现为一种内存中的数据结构，为了提高空间效率，可以将其实现为一个紧凑的可变长度数组。需要说明的是，所述消息存储单元的空间复杂度与划分策略密切相关，如果有越多的边界顶点/边，那么所述消息存储单元消耗的空间就越大。与多机系统的消息传递策略相比，采用消息存储单元在共享内存环境中工作效率更高。

本实施例中，所述存储管理模块还包括状态管理单元；所述状态管理单元存储有所述状态信息，并可以在特定时刻更新所述状态信息。所述状态管理单元用于维护一个状态机来建模子图的状态。具体的，所述状态管理单元被实现为一个轻量级的数据结构，每个子图只维护几个状态，占用的内存空间可以忽略不计。

采用所述状态管理单元记录子图的状态信息是一种低成本的收敛检测方法，只需要使用一个标记列表M来帮助跟踪计算单元之间的消息交换，以及一个轻量级状态机来对每个计算单元的工作进度建模。具体的，所述状态管理单元构建了一个标记列表M，每个子图对应一个标记，用于指示其是否在该轮迭代接收到有任何消息，如果一个子图至少有一个挂起的更新要从所述消息存储单元中提取，则其对应的M[i]为真，否则，M[i]为假。实际操作时，可以采用有限状态机对每个子图的进度进行建模，并使用标志M[i]来触发子图的状态转换。

如图3所示，所述子图的状态包括“活跃”、“等待计算”、“正在计算”、“释放中”和“收敛”五种，在任何时刻，所述子图都处于五种状态中的一种，其中，前两种状态表示所述子图在磁盘上，剩下的状态表示所述子图在内存中。每个所述子图的初始状态都是“活跃”，意味着所述子图正在等待所述数据加载模块将其载入到内存；当所述子图被所述数据加载模块获取时，所述状态管理单元用于将所述子图的状态设置为“等待计算”，意味着所述子图已经驻留在内存中，所述子图等待被分配处理核心；当所述子图被传输至所述数据计算模块时，所述状态管理单元用于将所述子图的状态设置为“正在计算”，意味着所述子图正在被处理核心计算处理；当所述子图被传输至所述数据释放模块(也即所述子图在当前轮更新产生了需要发送给其他所述子图的消息)时，所述状态管理单元用于将所述子图的状态设置为“释放中”；当所述子图被写入所述磁盘时，所述状态管理单元用于将所述子图的状态设置为“收敛”；当当前轮更新结束时，所述状态管理单元还用于将参与下一轮更新的子图的状态设置为活跃，以便这部分子图开始下一轮的更新；当且仅当当前轮更新结束且所述消息存储单元中不存在消息缓存时，整个系统停止更新。

在一定条件下，所述系统可以跳过一轮计算中的某些状态而不影响正确性，也就是说，可以在状态转换中采取一些“捷径”，并减少不必要的计算和I/O。

如图3所示，本实施例中，当当前轮更新结束时，所述存储管理模块用于将接收到消息的所述子图的状态设置为“活跃”(“捷径A”)。为了开始新一轮增量计算，状态为“收敛”的所述子图的状态需要被重置为“活跃”，如果此时一个子图对应的M[i]为真，可以让该子图保持在“收敛”状态，使其不参与下一轮的更新，由此可以全面跳过对无需更新的子图的处理，而不影响程序的正确性。“捷径A”经常在输入图没有被很好地连接，某一子图是“孤立的”的情况下被利用，并有效减少了I/O成本。

本实施例中，当所述子图为当前轮更新中的最后一个时，所述数据释放模块用于将所述子图传输至所述数据加载模块(“捷径B”)。在全部所述子图完成当前轮更新后会开始新一轮的更新，如果一个子图仍然处于“释放中”状态，也就是说还没有完全保存到磁盘上，可以直接将该子图的状态设置为“等待计算”，由此可以在不经过磁盘的情况下启动对该子图的新一轮更新。“捷径B”可以在每一轮结束时被利用，并有效减少了I/O成本。

本实施例中，当更新后的所述子图不存在改变时，所述数据计算模块用于将所述子图写入所述磁盘(“捷径C”)。当一个子图更新完成时，如果其相比于计算前并没有任何改变，可以跳过“释放中”状态，直接将其设置为“收敛”，由此可以有效减少冗余的磁盘写入。

本实施例中，所述数据计算模块包括聚合计算单元，当当前轮更新结束且所述消息存储单元中不存在消息缓存时，所述聚合计算单元用于调用预设的聚合函数对全部所述子图进行聚合，得到更新后的大规模图数据。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种基于单机的大规模图数据处理系统，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种基于单机的大规模图数据处理系统，其特征在于，包括数据加载模块、数据计算模块、数据释放模块、存储管理模块和磁盘；所述磁盘存储有由若干子图构成的大规模图数据；所述存储管理模块存储有与每一所述子图对应的状态信息；初始状态下，所述子图的状态为活跃；

所述数据加载模块用于从所述磁盘获取状态为活跃的所述子图，并将所述子图传输至所述数据计算模块；

所述数据计算模块用于对所述子图进行更新，并将更新产生的消息传输至所述存储管理模块；

当更新后的所述子图存在改变时，所述数据计算模块还用于将所述子图传输至所述数据释放模块；

当所述子图非当前轮更新中的最后一个时，所述数据释放模块用于将所述子图写入所述磁盘；

当所述子图被写入所述磁盘时，所述存储管理模块用于将所述子图的状态设置为收敛。
根据权利要求1所述的系统，其特征在于，当更新后的所述子图不存在改变时，所述数据计算模块还用于将所述子图写入所述磁盘。
根据权利要求1所述的系统，其特征在于，当所述子图为当前轮更新中的最后一个时，所述数据释放模块还用于将所述子图传输至所述数据加载模块。
根据权利要求1所述的系统，其特征在于，当当前轮更新结束时，所述存储管理模块还用于将接收到消息的所述子图的状态设置为活跃。
根据权利要求1所述的系统，其特征在于，当当前轮更新结束且所述存储管理模块中不存在消息缓存时，所述数据计算模块还用于对全部所述子图进行聚合，得到更新后的大规模图数据。
根据权利要求1所述的系统，其特征在于，所述存储管理模块包括消息存储单元和状态管理单元；所述状态管理单元存储有所述状态信息；

所述数据计算模块用于将更新产生的消息传输至所述消息存储单元；

当当前轮更新结束时，所述状态管理单元用于将接收到消息的所述子图的状态设置为活跃。
根据权利要求6所述的系统，其特征在于，所述数据计算模块包括聚合计算单元；

当当前轮更新结束且所述消息存储单元内不存在消息缓存时，所述聚合计算单元用于对全部所述子图进行聚合，得到更新后的大规模图数据。
根据权利要求1所述的系统，其特征在于，当所述子图被所述数据加载模块获取时，所述存储管理模块还用于将所述子图的状态设置为等待计算。
根据权利要求1所述的系统，其特征在于，当所述子图被传输至所述数据计算模块时，所述存储管理模块还用于将所述子图的状态设置为正在计算。
根据权利要求1所述的系统，其特征在于，当所述子图被传输至所述数据释放模块时，所述存储管理模块还用于将所述子图的状态设置为释放中。