WO2022052973A1

WO2022052973A1 - 一种模型处理方法、装置、设备及计算机可读存储介质

Info

Publication number: WO2022052973A1
Application number: PCT/CN2021/117359
Authority: WO
Inventors: 张�杰; 王昂; 江乐; 李永
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-09-10
Filing date: 2021-09-09
Publication date: 2022-03-17
Anticipated expiration: 2023-03-10
Also published as: CN114169491A; EP4213071A1; US20230316450A1; EP4213071A4; CN114169491B

Abstract

一种模型处理方法、装置、设备及计算机可读存储介质。通过获取待训练模型对应的第一计算图、以及待训练模型的并行化策略，待训练模型的并行化策略包括流水并行、模型并行、数据并行和算子拆分中的至少一种（S601），根据待训练模型的并行化策略在第一计算图中添加并行化信息，得到第二计算图（S602），并根据第二计算图和计算资源，确定分布式计算图（S603），根据分布式计算图对待训练模型进行训练（S604），实现了基于计算图图编辑的技术来支持多种并行化策略，使得多种并行化策略可以整合于一套系统中，从而实现了一种能够支持多种并行化策略的分布式训练框架。

Description

一种模型处理方法、装置、设备及计算机可读存储介质

本公开要求2020年09月10日递交的申请号为202010947896.X、发明名称为“一种模型处理方法、装置、设备及计算机可读存储介质”中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本公开涉及信息技术领域，尤其涉及一种模型处理方法、装置、设备及计算机可读存储介质。

背景技术

随着深度神经网络的发展，深度学习模型、神经网络模型等模型的参数量在不断的增长，但是用于训练模型的硬件的更新速度却跟不上模型的迭代速度。

现有技术采用分布式的训练方法对模型进行训练。通常的分布式的训练方法包括：数据并行、模型并行、流水并行、算子拆分、以及混合并行等并行化策略。其中，混合并行可以是数据并行、模型并行、流水并行、算子拆分中两种或两种以上的组合方式。但是，现有技术中的分布式训练框架无法支持各种并行化策略及其组合。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种模型处理方法、装置、设备及计算机可读存储介质，以实现一种能够支持多种并行化策略的分布式训练框架。

第一方面，本公开实施例提供一种模型处理方法，包括：

获取待训练模型对应的第一计算图、以及所述待训练模型的并行化策略，所述待训练模型的并行化策略包括流水并行、模型并行、数据并行和算子拆分中的至少一种；

根据所述待训练模型的并行化策略在所述第一计算图中添加并行化信息，得到第二计算图；

根据所述第二计算图和计算资源，确定分布式计算图；

根据所述分布式计算图对所述待训练模型进行训练。

第二方面，本公开实施例提供一种模型处理装置，包括：

获取模块，用于获取待训练模型对应的第一计算图、以及所述待训练模型的并行化策略，所述待训练模型的并行化策略包括流水并行、模型并行、数据并行和算子拆分中的至少一种；

添加模块，用于根据所述待训练模型的并行化策略在所述第一计算图中添加并行化信息，得到第二计算图；

确定模块，用于根据所述第二计算图和计算资源，确定分布式计算图；

训练模块，用于根据所述分布式计算图对所述待训练模型进行训练。

第三方面，本公开实施例提供一种模型处理设备，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面所述的方法。

第四方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现第一方面所述的方法。

本公开实施例提供的模型处理方法、装置、设备及计算机可读存储介质，通过获取待训练模型对应的第一计算图、以及待训练模型的并行化策略，待训练模型的并行化策略包括流水并行、模型并行、数据并行和算子拆分中的至少一种，根据待训练模型的并行化策略在第一计算图中添加并行化信息，得到第二计算图，并根据第二计算图和计算资源，确定分布式计算图，根据分布式计算图对待训练模型进行训练，实现了基于计算图图编辑的技术来支持多种并行化策略，使得多种并行化策略可以整合于一套系统中，从而实现了一种能够支持多种并行化策略的分布式训练框架。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的数据并行的示意图；

图2为本公开实施例提供的模型并行的示意图；

图3为本公开实施例提供的流水并行的一种示意图；

图4为本公开实施例提供的流水并行的另一种示意图；

图5为本公开实施例提供的算子拆分的示意图；

图6为本公开实施例提供的模型处理方法流程图；

图7为本公开实施例提供的一种应用场景的示意图；

图8为本公开实施例提供的另一种应用场景的示意图；

图9为本公开另一实施例提供的模型处理方法流程图；

图10为本公开实施例提供的另一种应用场景的示意图；

图11为本公开实施例提供的另一种应用场景的示意图；

图12为本公开实施例提供的分布式训练框架的示意图；

图13为本公开实施例提供的模型参数维度的示意图；

图14为本公开实施例提供的第一计算图的划分方法的示意图；

图15为本公开实施例提供的虚拟设备的划分方法的示意图；

图16为本公开实施例提供的另一种应用场景的示意图；

图17为本公开实施例提供的模型处理装置的结构示意图；

图18为本公开实施例提供的模型处理设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

通常情况下，采用分布式的训练方法对模型进行训练。通常的分布式的训练方法包括：数据并行、模型并行、流水并行、算子拆分等并行化策略。但是，现有技术中的分布式训练框架无法支持各种并行化策略及其组合。针对该问题，本公开实施例提供了一种模型处理方法，下面结合具体的实施例对该方法进行介绍。

在本公开实施例中，并行化策略也可以称为并行策略，具体可以是分布式并行方法的集合。例如，并行化策略包括：数据并行、模型并行、流水并行、算子拆分、混合并行等。其中，混合并行可以是数据并行、模型并行、流水并行、算子拆分中两种或两种以上的组合方式。下面分别对数据并行、模型并行、流水并行、算子拆分进行详细介绍。

数据并行具体表现为：多个设备中每个设备加载有相同的模型副本，也就是说，多个设备中每个设备分别训练的模型是相同的。但是，每个设备中用于训练模型的样本数据是不同的。例如，不同设备中用于训练模型的样本数据是不同的数据子集。每个设备中的数据子集构成的集合是训练该模型的完整集合。另外，每个设备在迭代结束时可以同步跨副本的模型参数。如图1所示为数据并行的示意图，例如，模型10和模型11是相同的模型。设备0用于训练模型10，设备1用于训练模型11。在一次迭代训练过程中，设备0训练模型10采用的样本数据记为input1，设备1训练模型11采用的样本数据记为input2。其中，input1和input2可以不同。设备0根据input1可以输出训练结果，该训练结果例如可以是梯度。同理，设备1根据input2可以输出训练结果，该训练结果例如可以是梯度。由于设备0输出的训练结果和设备1输出的训练结果可能不同，因此，可以对设备0输出的训练结果和设备1输出的训练结果进行聚合处理，得到聚合结果。进一步，可以根据该聚合结果分别更新模型10的参数和模型11的参数，使得模型10的参数和模型11的参数相同，并进行下一次迭代训练。

模型并行具体表现为：多个设备中不同设备用于训练模型的不同层。例如，模型可以包括多个层(例如，网络层)，不同设备负责不同层的计算，也就是说，模型的不同层被分配到不同的设备。具体的，模型的一层或多层可以被分配到同一个设备。如图2所示为模型并行的示意图，例如，模型包括层1、层2、层3和层4，其中，层1和层2可以被分配到设备0，层3和层4可以被分配到设备1，设备0的输入为样本数据，设备0的输出可以作为设备1的输入。

流水并行是一种辅助性的并行策略，流水并行可以单独使用，也可以与模型并行混合使用。

图3所示为流水并行单独使用的示意图。例如，30表示模型，模型30由某个设备进行训练，31表示用于训练该模型的数据集合，该数据集合可以包括大量的样本数据。由于大量的样本数据占用较大的存储空间和计算资源，因此，在单独使用流水并行时，可以将数据集合31划分为多个较小的分片，例如，32表示多个分片中的任意一个分片。进一步，该设备可以将多个分片中的每个分片依次输入到模型30中对模型30进行训练，其中，将一个分片输入到模型30中对模型30进行训练后可得到一个训练结果，该训练结果例如可以是梯度。例如，数据集合31被划分为10个分片，10个分片依次输入到模型30中对模型30进行训练后可得到10个训练结果，进一步对该10个训练结果进行处理即可得到该模型的模型参数。

图4所示为流水并行与模型并行混合使用的示意图。如图4所示，模型40包括层1、层2、层3和层4。根据前面所述的模型并行可知，层1、层2、层3和层4可以分别被分配到不同的设备进行计算。例如，设备1负责层1的计算，设备2负责层2的计算，设备3负责层3的计算，设备4负责层4的计算。可以理解的是，如图4所示的流水并行与模型并行的混合使用只是一种示意性说明，并不做具体限定。在流水并行与模型并行混合使用的情况下，可以将层1的输入数据41划分为多个分片，例如，F _0,1和F _1,1分别表示一个分片。设备1可以对多个分片依次处理，例如，设备1可以先处理分片F _0,1，设备1对分片F _0,1处理后得到的处理结果可以记为F _0,2。F _0,2可以作为层2的输入，即设备1可以将F _0,2发送给设备2。同理，设备2对F _0,2处理后得到的处理结果可记为F _0,3，设备2可以将F _0,3发送给设备3，F _0,3作为层3的输入。同理，设备3对F _0,3处理后得到的处理结果可记为F _0,4，设备3可以将F _0,4发送给设备4，F _0,4作为层4的输入。可以理解的是，当设备2对F _0,2进行处理的同时，设备1可以对F _0,1的下一个分片即F _1,1进行处理，F _1,1的处理结果的流向以及后续的处理类似于F _0,1，此处不再赘述。也就是说，通过流水并行与模型并行混合使用，模型40中不同层所对应的设备可以并行计算。例如，在t时刻，设备1、设备2、设备3和设备4可以同时并行计算，从而提高了计算效率。

算子拆分具体表现为：模型的每一层包括一个或多个算子。每一层中的算子用于训练模型的部分参数。另外，不同层对应的参数个数可以不同，也可以相同。图5所示为算子拆分的一种示意图。例如，将每一层中算子的存储部分和计算部分拆分到设备0和设备1上进行存储和计算。在一些实施例中，还可以对模型中的任意一层或多层进行拆分。其中，算子的存储部分可以是该算子训练的参数。

如上所述的设备具体可以是图形处理器(Graphics Processing Unit，GPU)或中央处理器(Central Processing Unit，CPU)等计算设备。

可以理解的是，如上所述的模型可以是神经网络模型，或者也可以是深度学习模型，另外，还可以是其他类型的模型，也就是说，本公开实施例并不对模型作具体限定。其中，深度学习是机器学习的分支，是一种以人工神经网络为架构，对资料进行表征学习的算法。另外，深度学习模型也可以称为深度神经网络模型，具体的，3层或3层以上的神经网络模型可以是深度学习模型。

图6为本公开实施例提供的模型处理方法流程图。该方法具体步骤如下：

S601、获取待训练模型对应的第一计算图、以及所述待训练模型的并行化策略，所述待训练模型的并行化策略包括流水并行、模型并行、数据并行和算子拆分中的至少一种。

本实施例中待训练模型例如可以是待训练的神经网络模型或深度学习模型等。该待训练模型可以是用户的单机单卡模型。另外，本实施例中的模型可以应用在计算机视觉、自然语言处理、知识图谱等领域中。

本实施例所述的模型处理方法具体可以由分布式训练框架来执行。该分布式训练框架可以部署在一个或多个机器上，该机器具体可以包括计算机、计算机集群、服务器等，其中，服务器具体可以包括云端服务器、远程服务器等。每个机器可包括多个设备，该设备例如可以是GPU或CPU等计算设备。

在一种可能的应用场景中，该分布式训练框架部署在云端服务器，可以理解的是，本实施例并不限定云端服务器的个数，例如可以是一个，也可以是多个。此处以一个为例进行示意性说明。例如图7所示的云端服务器70。待训练模型存储在用户终端71。本实施例并不限定终端71的具体产品形态，例如，可以是笔记本电脑、台式电脑、平板电脑、个人计算机(Personal Computer，PC)等。具体的，终端71可以将待训练模型发送给云端服务器70，云端服务器70接收到待训练模型后，生成待训练模型对应的计算图，该计算图记为第一计算图。该第一计算图可以是用户原始单机单卡计算图。或者，终端71可以根据本地的待训练模型生成第一计算图，并将该第一计算图发送给云端服务器70。云端服务器70可以采用该分布式训练框架对待训练模型进行训练，并将训练结果反馈给终端71。

在另一种可能的应用场景中，云端服务器70可以将分布式训练框架发送给终端71，终端71可以将该分布式训练框架部署在终端71或其他设备上。例如，该分布式训练框架部署在终端71之后，终端71可以根据本地的待训练模型生成第一计算图，并将该第一计算图作为该分布式训练框架的输入，通过该分布式训练框架对待训练模型进行训练，并输出训练结果。本实施例所述的分布式训练框架可以支持多种并行化策略，例如，该分布式训练框架不仅可以支持流水并行、模型并行、数据并行或算子拆分，还可以支持流水并行、模型并行、数据并行和算子拆分中两种或两种以上的组合方式。也就是说，本实施例中的分布式训练框架不仅可以支持流水并行、模型并行、数据并行和算子拆分中单一的一种并行化策略，也可以支持混合并行。因此，该分布式训练框架不仅可以采用单一的并行化策略对待训练模型进行训练，还可以采用混合并行方式对待训练模型进行训练。

另外，当分布式训练框架获取到待训练模型的第一计算图时，还可以进一步获取待训练模型的并行化策略，该待训练模型的并行化策略可以是流水并行、模型并行、数据并行和算子拆分中的至少一种。也就是说，该待训练模型的并行化策略可以是单一的并行化策略，也可以是混合并行策略。

在一种可能的实现方式中，获取所述待训练模型的并行化策略，包括：根据所述待训练模型对应的第一计算图，确定所述待训练模型的并行化策略。

例如，当分布式训练框架获取到待训练模型的第一计算图时，可以根据该第一计算图，确定出该待训练模型的并行化策略。例如，分布式训练框架可以根据强化学习等机器学习方法对第一计算图进行分析，以确定该待训练模型的特征信息，并根据该特征信息确定该待训练模型的并行化策略。

在另一种可能的实现方式中，获取所述待训练模型的并行化策略，包括：获取用户选择的所述待训练模型的并行化策略。

例如，该分布式训练框架提供有用户接口，用户可以采用该用户接口选择待训练模型的并行化策略。具体的，该用户接口提供有流水并行、模型并行、数据并行和算子拆分，用户可以从流水并行、模型并行、数据并行和算子拆分中选择一个或多个作为待训练模型的并行化策略。另外，作为一种可能的实现方式，当分布式训练框架获取到用户选择的待训练模型的并行化策略时，还可以计算该用户选择的并行化策略或各种并行化策略的组合方式所需要消耗的计算资源、成本、时间、性能等指标信息。进一步，分布式训练框架还可以将这些指标信息反馈给用户，以便用户对已选择的并行化策略进行调整或确认。

S602、根据所述待训练模型的并行化策略在所述第一计算图中添加并行化信息，得到第二计算图。

例如图8所示的81表示待训练模型对应的第一计算图。811、812、813、814分别表示该待训练模型包括的不同层。分布式训练框架可以根据待训练模型的并行化策略，在第一计算图81的基础上添加并行化信息，得到第二计算图82。该并行化信息是与待训练模型的并行化策略相关的信息。例如，待训练模型的并行化策略为：待训练模型的第一部分和第二部分之间采用模型并行，第一部分内采用数据并行，第二部分内采用算子拆分。该并行化信息可以包括待训练模型的并行化策略。另外，该并行化信息还可以包括并行化策略的参数信息，例如，数据并行所需的设备的个数、算子拆分的拆分对象被拆分成的个数或分片数等。

可选的，根据所述待训练模型的并行化策略在所述第一计算图中添加并行化信息，得到第二计算图，包括：根据所述待训练模型的并行化策略将所述第一计算图划分为多个第一子图；根据所述待训练模型的并行化策略在所述多个第一子图的每个第一子图中添加并行化信息，得到第二计算图。

例如，分布式训练框架可以根据待训练模型的并行化策略将该第一计算图划分为多个子图(Subgraph)，每个子图可以包括待训练模型的一层或多个。例如，分布式训练框架将第一计算图划分为图8所示的子图1和子图2，子图1和子图2分别记为第一子图。例如，子图1对应待训练模型的第二部分，子图2对应待训练模型的第一部分。进一步，根据待训练模型的并行化策略在子图1和子图2中的每个子图中添加并行化信息，得到第二计算图82。

可选的，所述并行化信息包括不同第一子图之间的并行化信息、以及每个第一子图内的并行化信息。

例如，分布式训练框架在子图1中添加的并行化信息可以包括子图1内的并行化信息，另外，还可以包括子图1和子图2之间的并行化信息。同理，分布式训练框架在子图2中添加的并行化信息可以包括子图2内的并行化信息，另外，还可以包括子图1和子图2之间的并行化信息。

可选的，不同第一子图之间的并行化信息包括：不同第一子图之间采用的并行化策略。不同第一子图之间采用的并行化策略包括：流水并行和/或模型并行。

例如，子图1和子图2之间的并行化信息包括子图1和子图2之间采用的并行化策略，该并行化策略为模型并行。

可选的，不同第一子图之间的并行化信息还包括：不同第一子图之间采用的并行化策略的参数信息。

例如，在其他一些实施例中，子图1和子图2之间的并行化策略为在模型并行的基础上增加流水并行。根据如上所述的内容可知流水并行可以将模型的样本数据集划分为多个较小的分片。当流水并行与模型并行混合使用时，可以将子图1的输入数据划分为多个较小的分片、以及将子图2的输入数据划分为多个较小的分片。在这种情况下，子图1和子图2之间的并行化信息不仅可以包括子图1和子图2之间采用的并行化策略，另外还可以包括子图1和子图2之间采用的并行化策略的参数信息，例如，该参数信息具体可以是子图1的输入数据被划分成的分片的个数，以及子图2的输入数据被划分成的分片的个数。其中，子图1的输入数据被划分成的分片的个数和子图2的输入数据被划分成的分片的个数可以相同，也可以不同。另外，子图1和子图2之间采用的并行化策略的参数信息可以是用户配置的，也可以是分布式训练框架配置的。

可选的，每个第一子图内的并行化信息包括：每个第一子图内的并行化策略。每个第一子图内的并行化策略包括：数据并行和/或算子拆分。

例如，图8所示的子图1内采用算子拆分，子图2内采用数据并行。在其他实施例中，子图1内可以采用数据并行，子图2内采用算子拆分。另外，子图1内采用的并行化策略还可以与子图2内采用的并行化策略相同。此外，每个子图采用的并行化策略还可以是混合并行方式，例如，子图1内采用数据并行和算子拆分的组合方式，和/或子图2内采用数据并行和算子拆分的组合方式。

可选的，每个第一子图内的并行化信息还包括：每个第一子图内的并行化策略的参数信息。

例如，当子图1内采用算子拆分，子图2内采用数据并行时，子图1内的并行化信息还可以包括算子拆分的参数信息，例如，子图1被拆分的个数。同理，子图2内的并行化信息还可以包括数据并行的参数信息，例如，数据并行需要几个设备来执行。另外，子图1内或子图2内的并行化策略的参数信息可以是用户配置的，也可以是分布式训练框架配置的。

如图8所示，子图1和子图2各自的边缘虚线框、以及圆圈1和圆圈2表示子图1和子图2之间的并行化信息，即子图1和子图2分别被分配到不同的设备进行计算。另外，子图1内的并行化信息可以是811里面的虚线框，表示子图1内采用算子拆分。另外，811里面虚线框的个数可以标识子图1被拆分的个数。例如，811里面的两个虚线框表示将子图1被拆分到两个设备中执行。同理，还可以在子图2内部表示并行化信息，例如，子图2内的并行化信息用于标识数据并行、以及数据并行所需的设备个数，例如3个。

S603、根据所述第二计算图和计算资源，确定分布式计算图。

例如图8所示的物理设备0、物理设备1、物理设备2、物理设备3和物理设备4分别为具体的硬件计算资源。其中，物理设备0、物理设备1、物理设备2、物理设备3和物理设备4可以是来自于同一个机器中的物理设备，也可以是来自于不同机器的物理设备。在本实施例中，物理设备可以是如上所述的GPU或CPU等计算设备，另外，物理设备还可以是虚拟机。分布式训练框架可以将该硬件计算资源划分为多个虚拟设备，本实施例并不对此处的划分方法做具体限定。例如，可以将物理设备0和物理设备1划分为虚拟设备1，将物理设备2、物理设备3和物理设备4划分为虚拟设备2。进一步，根据第二计算图82和各个虚拟设备中包括的物理设备得到分布式计算图83。分布式计算图83表示物理设备0和物理设备1用于对子图1进行算子拆分计算，物理设备2、物理设备3和物理设备4用于对子图2进行数据并行计算。

S604、根据所述分布式计算图对所述待训练模型进行训练。

例如，将分布式计算图83输入到训练引擎Tensorflow或PyTorch，由训练引擎Tensorflow或PyTorch执行训练过程。其中，Tensorflow是一个用于图像、语音和语言理解等机器学习任务的开源机器学习平台。PyTorch是一个基于Torch实现的开源的Python机器学习库，应用于人工智能领域，如自然语言处理。

在其他一些可能的应用场景中，终端71可以向云端服务器70发送计算资源信息、以及待训练模型或待训练模型对应的第一计算图，云端服务器70可以根据计算资源信息、以及待训练模型或待训练模型对应的第一计算图，确定出分布式计算图。根据该分布式计算图对待训练模型进行训练的过程可以在其他服务器或其他服务器所提供的训练引擎中执行。例如，云端服务器70可以将分布式计算图发送给终端71，用户通过终端71接收到该分布式计算图后，可以根据该分布式计算图，在其他服务器或其他服务器所提供的训练引擎中对待训练模型进行训练。本公开实施例通过获取待训练模型对应的第一计算图、以及待训练模型的并行化策略，待训练模型的并行化策略包括流水并行、模型并行、数据并行和算子拆分中的至少一种，根据待训练模型的并行化策略在第一计算图中添加并行化信息，得到第二计算图，并根据第二计算图和计算资源，确定分布式计算图，根据分布式计算图对待训练模型进行训练，实现了基于计算图图编辑的技术来支持多种并行化策略，使得多种并行化策略可以整合于一套系统中，从而实现了一种能够支持多种并行化策略的分布式训练框架。

在上述实施例的基础上，根据所述第二计算图和计算资源，确定分布式计算图包括如图9所示的如下几个步骤：

S901、对所述计算资源进行划分，得到一个或多个虚拟设备，所述虚拟设备包括一个或多个物理设备。

例如，将物理设备0和物理设备1划分为虚拟设备1，将物理设备2、物理设备3和物理设备4划分为虚拟设备2。

可选的，对所述计算资源进行划分，得到一个或多个虚拟设备，包括：根据所述并行化信息对所述计算资源进行划分，得到一个或多个虚拟设备。

例如，在对物理设备0、物理设备1、物理设备2、物理设备3和物理设备4进行划分时，具体可以根据第二计算图82中的并行化信息进行划分。例如，第二计算图82中的并行化信息表示将第一计算图81划分为两个子图，因此，可以将物理设备0、物理设备1、物理设备2、物理设备3和物理设备4划分为两个虚拟设备，例如，虚拟设备1和虚拟设备2。

S902、根据所述并行化信息将所述第二计算图转换为第三计算图。

如图10所示，在得到第二计算图82时，还可以根据第二计算图82中的并行化信息将第二计算图82转换为第三计算图84。

可选的，根据所述并行化信息将所述第二计算图转换为第三计算图，包括：根据所述多个第一子图中每个第一子图的并行化信息，将所述第一子图转换为分布式的第二子图；根据所述多个第一子图之间的连接关系，将每个第一子图对应的分布式的第二子图进行连接，得到第三计算图。

例如，子图1和子图2分别记为第一子图，根据每个第一子图的并行化信息，可以每个第一子图转换为分布式的第二子图。例如，子图11和子图12是将子图1转换后得到的分布式的第二子图。子图21、子图22和子图23是将子图2转换后得到的分布式的第二子图。进一步，根据子图1和子图2之间的连接关系，将子图11分别与子图21、子图22和子图23连接，以及将子图12分别与子图21、子图22和子图23连接，从而得到第三计算图84。

S903、将所述第三计算图映射到物理设备，得到分布式计算图。

例如，将第三计算图84映射到物理设备，得到分布式计算图83。

可选的，将所述第三计算图映射到物理设备，包括：将所述第三计算图中的每个第二子图映射到物理设备。

例如，将第三计算图84中的每个第二子图映射到一个物理设备。

可选的，将所述第三计算图中的每个第二子图映射到物理设备，包括：将每个第一子图映射到一个虚拟设备；将所述第一子图对应的每个第二子图映射到所述第一子图对应的虚拟设备包括的物理设备。

例如，将子图1映射到虚拟设备1，进一步，将子图1对应的子图11和子图12分别映射到虚拟设备1包括的物理设备，例如，将子图11映射到虚拟设备1中的物理设备0，将子图12映射到虚拟设备1中的物理设备1。同理，将子图2映射到虚拟设备2，进一步，将子图2对应的子图21、子图22和子图23分别映射到虚拟设备2包括的物理设备，例如，将子图21映射到物理设备2，将子图22映射到物理设备3，将子图23映射到物理设备4。

另外，在其他实施例中，子图1还可以被拆分到3个设备上，如图11所示。可选的，物理设备0和物理设备3可以是同一个设备，也可以是不同设备。同理，物理设备1和物理设备4可以是同一个设备，也可以是不同设备。物理设备2和物理设备5可以是同一个设备，也可以是不同设备。

本实施例通过对所述计算资源进行划分，得到一个或多个虚拟设备，所述虚拟设备包括一个或多个物理设备，根据所述并行化信息将所述第二计算图转换为第三计算图，将所述第三计算图映射到物理设备，得到分布式计算图，使得计算资源可以被充分的利用，提高了计算资源的利用率。

如图12所示的120表示分布式训练框架的结构示意图。分布式训练框架120的输入可以是如上所述的第一计算图。分布式训练框架120的输出可以是训练结果。

如图12所示，该分布式训练框架120包括接口层，接口层包括用户接口，该用户接口包括scopes和cluster。用户通过scopes和cluster可以给待训练模型配置并行化策略。

其中，scopes用于标识待训练模型不同部分的并行化策略。例如，scopes具体可以是replica(数据并行)、split(算子拆分)、pipeline(流水并行)、stage(模型并行)中的至少一个，也就是说，scopes可以是replica(数据并行)、split(算子拆分)、pipeline(流水并行)、stage(模型并行)中的任意一个，或者也可以是两个或两个以上的组合。不同的scopes用于指定不同的并行化策略。另外，scopes接口支持嵌套使用，从而可以将不同的并行化策略进行嵌套使用来实现各种混合并行策略加速分布式训练。用户可以通过scopes接口将待训练模型划分为多个子图，并且给每个子图配置一个scopes。

如图12所示的cluster用于对计算资源进行划分，其中计算资源也可以称为硬件资源。该计算资源具体可以是GPU或CPU等。例如，cluster用于将计算资源划分为多个虚拟计算设备。进一步，根据待训练模型的并行化策略将用户通过scopes划分出的子图映射到虚拟计算设备上，该映射过程对于用户可以是完全透明的。

下面通过几个具体示例来介绍一下通过用户接口如何构建各种不同的并行化策略。

1)数据并行的构建方法如下：

with whale.cluster():

with whale.replica():

USER_MODEL_DEFINATION()

其中，USER_MODEL_DEFINATION()表示用户原始代码即待训练模型对应的代码。with whale.replica():表示用户给待训练模型配置的数据并行策略。with whale.cluster()：表示调用cluster接口。也就是说，用户无需修改原始代码，只需在原始代码外层增加replica scope和cluster即可使得分布式训练框架对待训练模型进行数据并行分布式训练。

2)数据并行嵌套流水并行和模型并行的混合并行策略的构建方法如下：

with whale.cluster():

with whale.replica():

with whale.pipeline(num_micro_batch＝4):

with whale.stage():

USER_MODEL_DEFINATION_PART_1()

with whale.stage():

USER_MODEL_DEFINATION_PART_2()

其中，USER_MODEL_DEFINATION_PART_1()表示待训练模型的第一部分，USER_MODEL_DEFINATION_PART_2()表示待训练模型的第二部分。其中，第一部分和第二部分具体可以是用户划分的。两个with whale.stage():表示用户分别给第一部分和第二部分配置的模型并行策略。with whale.pipeline(num_micro_batch＝4):表示用户分别给第一部分和第二部分配置的流水并行策略。with whale.replica():表示用户分别给第一部分和第二部分配置的数据并行策略。也就是说，用户无需修改原始代码，只需在原始代码中增加stage scope以便对待训练模型进行划分，例如，划分为第一部分和第二部分。其中，第一部分可以对应一个子图，第二部分可以对应另一个子图。在第一部分和第二部分的外层增加pipeline scope即可使得分布式训练框架对待训练模型进行流水并行的训练，在此基础上，如需对待训练模型进行数据并行的训练，还可以在pipeline scope的外层增加replica scope。

3)算子拆分与数据并行的混合并行策略的构建方法如下：

with whale.cluster():

with whale.replica():

USER_MODEL_DEFINATION_PART_1()

with whale.split(split_dim＝“length”):

USER_MODEL_DEFINATION_PART_2()

其中，with whale.replica():表示用户给待训练模型的第一部分配置的数据并行策略。with whale.split(split_dim＝“length”)：表示用户给待训练模型的第二部分配置的算子拆分策略。也就是说，对于算子拆分，用户可以在需要拆分的模型部分增加split scope。对于数据并行，用户可以在需要数据并行的模型部分增加replica scope。

可以理解的是，以上所述的几种并行化策略的构建方法只是示意性说明，并不做具体限定。例如，在其他实施例中还可以构建出其他的并行化策略。也就是说，replica(数据并行)、split(算子拆分)、pipeline(流水并行)、stage(模型并行)可以单独使用，也可以组合使用。在组合使用的场景中，具体的组合方式可以不做限定。另外，replica(数据并行)、split(算子拆分)、pipeline(流水并行)、stage(模型并行)还可以嵌套使用，在嵌套使用时，具体的嵌套方式或嵌套顺序也不做限定。

在其他一些实施例中，当分布式训练框架120接收到第一计算图时，分布式训练框架120可以通过接口层中的scopes自动给第一计算图增加并行化策略。

本实施例通过对replica(数据并行)、split(算子拆分)、pipeline(流水并行)、stage(模型并行)进行单独使用、组合使用或嵌套使用，使得用户可以构建出各种各样的并行化策略，从而提高了并行化策略的灵活性。另外，通过上述示例可以看出，用户的原始代码即用户的模型定义部分的代码可以基于原生接口，例如，Tensorflow接口和PyTorch接口，而不需要更换模型定义的编程接口。因此，用户不需要修改原始代码，只需要在原始代码中增加几行应用程序接口(Application Programming Interface，API)调用即可轻易的组合出用户想要的并行化策略。

如图12所示，分布式训练框架120还包括模型及并行化中间表示层，该模型及并行化中间表示层中的并行化表示层可以对待训练模型的并行化策略进行解析得到相应的抽象。例如，本实施例提供了3类抽象，分别为Multi-Dimensional Resource、Subgraph Group、Virtual Device。该3类抽象可用于统一和表达不同的并行化策略。通过对并行化策略进行统一抽象后，可以基于计算图图编辑技术来实现并行化策略。

例如，数据并行和算子拆分可以通过Multi-Dimensional Resource进行表达。通常情况下，模型参数具有多个维度，例如，数据样本维度、通道维度、高度维度、宽度维度、长度维度，其中，数据样本维度记为N，通道维度记为C，高度维度记为H，宽度维度记为W，长度维度记为L。数据并行具体可以对数据样本维度N进行拆分。算子拆分具体可以对除了数据样本维度N之外的其他维度进行拆分，例如，算子拆分可以对通道维度C、高度维度H、宽度维度W、长度维度L中的一个维度进行拆分，或者也可以对通道维度C、高度维度H、宽度维度W、长度维度L中的多个维度进行拆分。Multi-Dimensional Resource这种抽象支持在不同维度的任意拆分或切分。如图13所示，Batch Sample表示数据样本维度，Channel表示通道维度，Length表示长度维度。例如，在对数据样本维度进行拆分时，Multi-Dimensional Resource可以表示数据并行。在对通道维度C、高度维度H、宽度维度W、长度维度L中的一个维度或多个维度进行拆分时，Multi-Dimensional Resource可以表示算子拆分。在数据样本维度和除了数据样本维度之外的其他维度同时进行拆分时，Multi-Dimensional Resource可以表示数据并行和算子拆分的组合方式。

Subgraph Group这种抽象支持将模型完整的计算图(Graph)例如上述实施例所述的第一计算图划分为多个子图(Subgraph)，每个子图内可以实施相同的或不同的并行化策略。子图之间可以进行通信。例如，Subgraph Group可用于表示模型并行和/或流水并行。具体的，模型并行和/或流水并行可以是子图之间的并行化策略，数据并行和/或算子拆分可以是子图内的并行化策略。如图14所示，第一计算图81可以有多种不同的划分方式，例如，第一计算图81可以划分为上述实施例所述的第二计算图82。或者，第一计算图81也可以划分为如图14所示的140，也就是说，可以将第一计算图81划分为4个子图，每个子图包括待训练模型的一层。

Virtual Device这种抽象支持将多个物理设备抽象成一个虚拟设备。其中，多个物理设备可以来自于同一个机器即单机多卡，或者多个物理设备可以来自于多个不同的机器即多机多卡。在一些实施例中，物理设备具体为GPU，多个物理设备为如图15所示的GPU0-GPU5，对GPU0-GPU5的划分方式可以有多种方法，例如，当GPU0-GPU2来自机器A，GPU3-GPU5来自机器B时，可以将GPU0-GPU3划分为虚拟设备0，将GPU4和GPU5划分为虚拟设备1。可以理解的是，如图15所示的划分方式只是一种示意性的方式，本实施例并不做具体限定。具体的，用户只需要感知虚拟设备、以及为子图分配相应的虚拟设备即可。分布式训练框架120可以根据硬件计算资源的网络拓扑将虚拟设备关联到具体的物理设备上。

另外，如图12所示的分布式训练框架120中的执行层可用于对第二计算图进行图改写，构造出可以进行并行化的第三计算图，并在第三计算图的基础上，将第三计算图转换为分布式计算图。进一步，执行层可以将分布式计算图发送给训练引擎，例如，Tensorflow、PyTorch等。

本实施例通过Multi-Dimensional Resource、Subgraph Group、Virtual Device这3类抽象来统一和表达各种不同的并行化策略，从而使得分布式训练框架可以支持任意的并行化策略、以及各种混合并行化策略，从而解决了并行化策略单一的问题。另外，本实施例还基于计算图图编辑技术来实现各种不同的并行化策略，使得多种并行化策略可以整合于一套系统中，提高了并行化策略的灵活性和多样性。

在上述实施例的基础上，根据所述分布式计算图对所述待训练模型进行训练，包括如图16所示的如下几个步骤：

S1601、将所述分布式计算图转换为训练引擎可识别的分布式计算图。

例如，在图8、图10、图11的基础上，可以将分布式计算图83转换为训练引擎例如，Tensorflow或PyTorch可识别的分布式计算图。具体的，将分布式计算图83转换为Tensorflow或PyTorch可识别的分布式计算图的过程可以由如图12所示的并行化计算图图转换组件来执行。

S1602、将所述训练引擎可识别的分布式计算图输入到所述训练引擎，通过所述训练引擎对所述待训练模型进行训练。

如图12所示，该分布式训练框架120还包括训练引擎，当并行化计算图图转换组件将分布式计算图83转换为Tensorflow或PyTorch可识别的分布式计算图之后，还可以将Tensorflow或PyTorch可识别的分布式计算图输入到训练引擎，训练引擎可以对待训练模型进行训练。

本实施例通过将分布式计算图转换为训练引擎可识别的分布式计算图，可以做到跨平台兼容不同的训练引擎例如Tensorflow或PyTorch，从而提高了分布式训练框架的兼容性。另外，通过将分布式计算图转换为训练引擎可识别的分布式计算图，还可以降低训练引擎和并行化策略之间的耦合度，从而可以兼容已有的训练引擎，提高了用户模型的兼容性。

图17为本公开实施例提供的模型处理装置的结构示意图。本公开实施例提供的模型处理装置可以执行模型处理方法实施例提供的处理流程，如图17所示，模型处理装置170包括：

获取模块171，用于获取待训练模型对应的第一计算图、以及所述待训练模型的并行化策略，所述待训练模型的并行化策略包括流水并行、模型并行、数据并行和算子拆分中的至少一种；

添加模块172，用于根据所述待训练模型的并行化策略在所述第一计算图中添加并行化信息，得到第二计算图；

确定模块173，用于根据所述第二计算图和计算资源，确定分布式计算图；

训练模块174，用于根据所述分布式计算图对所述待训练模型进行训练。

可选的，添加模块172具体用于：根据所述待训练模型的并行化策略将所述第一计算图划分为多个第一子图；根据所述待训练模型的并行化策略在所述多个第一子图的每个第一子图中添加并行化信息，得到第二计算图。

可选的，不同第一子图之间的并行化信息包括：不同第一子图之间采用的并行化策略。

可选的，不同第一子图之间采用的并行化策略包括：流水并行和/或模型并行。

可选的，每个第一子图内的并行化信息包括：每个第一子图内的并行化策略。

可选的，每个第一子图内的并行化策略包括：数据并行和/或算子拆分。

可选的，确定模块173包括：

划分单元1731，用于对所述计算资源进行划分，得到一个或多个虚拟设备，所述虚拟设备包括一个或多个物理设备；

转换单元1732，用于根据所述并行化信息将所述第二计算图转换为第三计算图；

映射单元1733，用于将所述第三计算图映射到物理设备，得到分布式计算图。

可选的，划分单元1731具体用于：根据所述并行化信息对所述计算资源进行划分，得到一个或多个虚拟设备。

可选的，转换单元1732具体用于：根据所述多个第一子图中每个第一子图的并行化信息，将所述第一子图转换为分布式的第二子图；根据所述多个第一子图之间的连接关系，将每个第一子图对应的分布式的第二子图进行连接，得到第三计算图。

可选的，映射单元1733具体用于：将所述第三计算图中的每个第二子图映射到物理设备。

可选的，映射单元1733具体用于：将每个第一子图映射到一个虚拟设备；将所述第一子图对应的每个第二子图映射到所述第一子图对应的虚拟设备包括的物理设备。

可选的，获取模块171具体用于：根据所述待训练模型对应的第一计算图，确定所述待训练模型的并行化策略。

可选的，获取模块171具体用于：获取用户选择的所述待训练模型的并行化策略。

可选的，训练模块174具体用于：将所述分布式计算图转换为训练引擎可识别的分布式计算图；将所述训练引擎可识别的分布式计算图输入到所述训练引擎，通过所述训练引擎对所述待训练模型进行训练。

图17所示实施例的模型处理装置可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图18为本公开实施例提供的模型处理设备的结构示意图。本公开实施例提供的模型处理设备可以执行模型处理方法实施例提供的处理流程，如图18所示，模型处理设备180包括：存储器181、处理器182、计算机程序和通讯接口183；其中，计算机程序存储在存储器181中，并被配置为由处理器182执行如上所述的模型处理方法。

另外，本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述实施例所述的模型处理方法。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种模型处理方法，其特征在于，所述方法包括：

获取待训练模型对应的第一计算图、以及所述待训练模型的并行化策略，所述待训练模型的并行化策略包括流水并行、模型并行、数据并行和算子拆分中的至少一种；

根据所述待训练模型的并行化策略在所述第一计算图中添加并行化信息，得到第二计算图；

根据所述第二计算图和计算资源，确定分布式计算图；

根据所述分布式计算图对所述待训练模型进行训练。
根据权利要求1所述的方法，其特征在于，根据所述待训练模型的并行化策略在所述第一计算图中添加并行化信息，得到第二计算图，包括：

根据所述待训练模型的并行化策略将所述第一计算图划分为多个第一子图；

根据所述待训练模型的并行化策略在所述多个第一子图的每个第一子图中添加并行化信息，得到第二计算图。
根据权利要求2所述的方法，其特征在于，所述并行化信息包括不同第一子图之间的并行化信息、以及每个第一子图内的并行化信息。
根据权利要求3所述的方法，其特征在于，不同第一子图之间的并行化信息包括：不同第一子图之间采用的并行化策略。
根据权利要求4所述的方法，其特征在于，不同第一子图之间的并行化信息还包括：不同第一子图之间采用的并行化策略的参数信息。
根据权利要求4或5所述的方法，其特征在于，不同第一子图之间采用的并行化策略包括：流水并行和/或模型并行。
根据权利要求3所述的方法，其特征在于，每个第一子图内的并行化信息包括：每个第一子图内的并行化策略。
根据权利要求7所述的方法，其特征在于，每个第一子图内的并行化信息还包括：每个第一子图内的并行化策略的参数信息。
根据权利要求7或8所述的方法，其特征在于，每个第一子图内的并行化策略包括：数据并行和/或算子拆分。
根据权利要求2所述的方法，其特征在于，根据所述第二计算图和计算资源，确定分布式计算图，包括：

对所述计算资源进行划分，得到一个或多个虚拟设备，所述虚拟设备包括一个或多个物理设备；根据所述并行化信息将所述第二计算图转换为第三计算图；

将所述第三计算图映射到物理设备，得到分布式计算图。
根据权利要求10所述的方法，其特征在于，对所述计算资源进行划分，得到一个或多个虚拟设备，包括：

根据所述并行化信息对所述计算资源进行划分，得到一个或多个虚拟设备。
根据权利要求10或11所述的方法，其特征在于，根据所述并行化信息将所述第二计算图转换为第三计算图，包括：

根据所述多个第一子图中每个第一子图的并行化信息，将所述第一子图转换为分布式的第二子图；

根据所述多个第一子图之间的连接关系，将每个第一子图对应的分布式的第二子图进行连接，得到第三计算图。
根据权利要求12所述的方法，其特征在于，将所述第三计算图映射到物理设备，包括：

将所述第三计算图中的每个第二子图映射到物理设备。
根据权利要求13所述的方法，其特征在于，将所述第三计算图中的每个第二子图映射到物理设备，包括：

将每个第一子图映射到一个虚拟设备；

将所述第一子图对应的每个第二子图映射到所述第一子图对应的虚拟设备包括的物理设备。
根据权利要求1所述的方法，其特征在于，获取所述待训练模型的并行化策略，包括：

根据所述待训练模型对应的第一计算图，确定所述待训练模型的并行化策略。
根据权利要求1所述的方法，其特征在于，获取所述待训练模型的并行化策略，包括：

获取用户选择的所述待训练模型的并行化策略。
根据权利要求1所述的方法，其特征在于，根据所述分布式计算图对所述待训练模型进行训练，包括：

将所述分布式计算图转换为训练引擎可识别的分布式计算图；

将所述训练引擎可识别的分布式计算图输入到所述训练引擎，通过所述训练引擎对所述待训练模型进行训练。
一种模型处理装置，其特征在于，包括：

获取模块，用于获取待训练模型对应的第一计算图、以及所述待训练模型的并行化策略，所述待训练模型的并行化策略包括流水并行、模型并行、数据并行和算子拆分中的至少一种；

添加模块，用于根据所述待训练模型的并行化策略在所述第一计算图中添加并行化信息，得到第二计算图；

确定模块，用于根据所述第二计算图和计算资源，确定分布式计算图；

训练模块，用于根据所述分布式计算图对所述待训练模型进行训练。
一种模型处理设备，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-17中任一所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-17中任一项所述的方法。