WO2024067404A1

WO2024067404A1 - 一种模型训练管理的方法、装置和系统

Info

Publication number: WO2024067404A1
Application number: PCT/CN2023/120765
Authority: WO
Inventors: 黄谢田; 曹龙雨
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-09-27
Filing date: 2023-09-22
Publication date: 2024-04-04
Anticipated expiration: 2025-03-27
Also published as: EP4567638A1; US20250190880A1; CN117828341A; EP4567638A4

Abstract

本申请提供了一种模型训练管理的方法、装置和系统，该方法包括：模型训练管理实体接收第一模型训练实体的训练状态信息，训练状态信息指示第一模型训练实体具有的至少一个模型训练任务；模型训练管理实体获取多个算力资源信息，多个算力资源信息分别指示多个模型训练实体具有的用于模型训练的空闲算力资源；模型训练管理实体基于多个算力资源信息在多个模型训练实体中确定第一目标模型训练实体；模型训练管理实体向第一目标模型训练实体发送第一训练任务配置信息，第一训练任务配置信息指示协助第一模型训练实体执行至少一个模型训练任务中的目标模型训练任务。从而能够提高模型训练的效率。

Description

一种模型训练管理的方法、装置和系统

本申请要求于2022年9月27日提交中国国家知识产权局、申请号为202211181988.7、申请名称为“一种模型训练管理的方法、装置和系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及通信技术的领域，并且更具体地，涉及一种模型训练管理的方法、装置和系统。

背景技术

为了提高网络的智能化和自动化水平，推理模型，例如人工智能(artificial intelligence，AI)模型和机器学习(machine learning，ML)模型运用于越来越多的技术领域。模型通常是通过训练获得，比如模型训练实体可以被配置模型训练任务，通过采用训练数据执行模型训练任务以获得能够使用的模型。通信系统中通常配置有多个模型训练实体，比如多个基站可以分别部署多个模型训练实体。每个基站中的模型训练实体中的训练任务可以根据该基站的需求设置。

然而，由于不同的模型训练实体所处的网络环境和网络需求可能不同且动态变化，不同的模型训练实体具有的模型训练任务也会随之不同。进而通信系统中可能会出现某些模型训练实体具有的模型训练任务超负荷，而某些模型训练实体过于空闲的情况，导致通信系统模型训练的整体效率较低。

发明内容

本申请提供了一种模型训练管理的方法、装置和系统，能够提高模型训练的效率。

第一方面，提供了一种模型训练管理的方法，该方法可以由模型训练管理实体或者模型训练管理实体中的芯片实现，该方法包括：模型训练管理实体接收第一模型训练实体的训练状态信息，训练状态信息指示第一模型训练实体具有的至少一个模型训练任务；模型训练管理实体获取多个算力资源信息，多个算力资源信息分别指示多个模型训练实体具有的用于模型训练的空闲算力资源；模型训练管理实体基于多个算力资源信息在多个模型训练实体中确定第一目标模型训练实体；模型训练管理实体向第一目标模型训练实体发送第一训练任务配置信息，第一训练任务配置信息指示协助第一模型训练实体执行至少一个模型训练任务中的目标模型训练任务。

目标模型训练任务的个数可以是一个或多个。第一目标模型训练实体的个数可以是一个或多个。

基于本技术方案，模型训练管理实体可以对多个模型训练实体的算力资源进行管理编排，将第一模型训练实体的训练任务分配给其他算力资源充足的模型训练实体协助完成训练，减少第一模型训练实体的训练任务的训练等待时间，提高模型训练的效率。

结合第一方面，在第一方面的某些实现方式中，模型训练管理实体获取多个算力资源信息，包括：模型训练管理实体分别周期接收来自多个模型训练实体的多个算力资源信息。

多个模型训练实体发送算力资源信息的周期可以相同或者不同。

基于本技术方案，对于网络状态频繁变化的通信系统中，各个模型训练实体可以及时上报自己的算力资源信息，使得模型训练管理实体可以及时进行编排与管理，提升模型训练的效率。结合第一方面，在第一方面的某些实现方式中，模型训练管理实体获取多个算力资源信息，包括：模型训练管理实体分别向多个模型训练实体发送多个算力资源查询信息；模型训练管理实体分别接收来自多个模型训练实体的多个算力资源信息。

可选地，模型训练管理实体基于训练状态信息确定第一模型训练实体不能够独立执行全部所述至少一个模型训练任务时，分别向多个模型训练实体发送多个算力资源查询信息。

基于本技术方案，模型训练实体可以基于模型训练管理实体的查询信息返回算力资源信息，即模型训练管理实体可以在具有需求的情况下，比如确定要分配协助训练的情况下向模型训练实体发送查询信息，能够节省传输资源，获取到实时的算力资源信息。

结合第一方面，在第一方面的某些实现方式中，模型训练管理实体接收第一模型训练实体的训练状态信息，包括：模型训练管理实体周期接收来自第一模型训练实体的训练状态信息。

多个模型训练实体发送训练状态信息的周期可以相同或者不同。

基于本技术方案，对于网络状态频繁变化的通信系统中，各个模型训练实体可以及时上报自己的训练状态信息，使得模型训练管理实体可以及时进行编排与管理，提升模型训练的效率。

结合第一方面，在第一方面的某些实现方式中，方法还包括：模型训练管理实体向第一模型训练实体发送训练任务配置通知信息，训练任务配置通知信息指示第一目标模型训练实体协助执行目标模型训练任务。结合第一方面，在第一方面的某些实现方式中，方法还包括：模型训练管理实体确定用于第一目标模型训练实体协助执行目标模型训练任务的训练数据的目标长度；模型训练管理实体向第一模型训练实体发送第二训练任务配置信息，第二训练任务配置信息指示第一目标模型训练实体采用目标长度的训练数据协助执行目标模型训练任务。

结合第一方面，在第一方面的某些实现方式中，训练状态信息还指示用于完成目标模型训练任务的训练数据的总长度，模型训练管理实体确定目标长度，包括：模型训练管理实体基于总长度和第一目标模型训练实体的算力资源信息确定目标长度。

基于本技术方案，模型训练管理实体可以对目标模型训练任务进行分解，利用多个模型训练实体协作完成训练任务，可以减轻目标模型训练任务的原训练主体即第一模型训练实体的训练任务负担，充分利用多个模型训练实体的资源，减少训练任务的训练等待时间。

结合第一方面，在第一方面的某些实现方式中，方法还包括：模型训练管理实体接收来自第一目标模型训练实体的协助训练反馈信息，协助训练反馈信息指示以下至少一项：第一目标模型训练实体执行目标模型训练任务达到的精度、第一目标模型训练实体执行目标模型训练任务耗费的时长、第一目标模型训练实体执行目标模型训练任务的执行进度、第一目标模型训练实体执行目标模型训练任务占用的资源数量。

结合第一方面，在第一方面的某些实现方式中，方法还包括：模型训练管理实体接收来自第一目标模型训练实体的网络状态更改信息；模型训练管理实体基于网络状态更改信息和多个算力资源信息确定将第一目标模型训练实体更换为多个模型训练实体中的第二目标模型训练实体；模型训练管理实体向第二目标模型训练实体发送第三训练任务配置信息，第三训练任务配置信息指示协助第一模型训练实体执行目标模型训练任务。

基于本技术方案，模型训练实体在协助执行模型训练任务的过程中，可以向模型训练管理实体反馈执行的情况，使得模型训练管理实体能够获知执行目标模型训练任务的情况，并能够及时作出调整，提升模型训练的可靠性。

结合第一方面，在第一方面的某些实现方式中，方法还包括：模型训练管理实体获取策略信息，策略信息指示基于多个算力资源信息在多个模型训练实体确定第一目标模型实体的方式，和/或，指示基于用于完成目标模型训练任务的训练数据的总长度确定用于第一目标模型实体协助执行目标模型训练任务的训练数据的目标长度的方式。

第二方面，提供了一种模型训练管理的方法，该方法可以由模型训练实体或者模型训练实体中的芯片实现，方法包括：模型训练实体向模型训练管理实体发送训练状态信息，训练状态信息指示模型训练实体具有的至少一个模型训练任务；模型训练实体向模型训练管理实体发送算力资源信息，算力资源信息指示模型训练实体具有的用于模型训练的空闲算力资源；模型训练实体接收来自模型训练管理实体的训练任务信息，训练任务信息指示协助执行至少一个模型训练任务中的目标模型训练任务的第一目标模型训练实体。

基于本技术方案，模型训练实体可以向模型训练管理实体上报算力资源信息和训练状态信息，使得模型训练管理实体可以对多个模型训练实体的算力资源进行管理编排，将模型训练实体的训练任务分配给其他算力资源充足的模型训练实体协助完成训练，减少模型训练实体的训练任务的训练等待时间，提高模型训练的效率。

结合第二方面，在第二方面的某些实现方式中，模型训练实体向模型训练管理实体发送算力资源信息，包括：模型训练实体向模型训练管理实体周期发送算力资源信息；或者，模型训练实体接收来自模型训练管理实体的算力资源查询信息；模型训练实体向模型训练管理实体发送算力资源信息。

结合第二方面，在第二方面的某些实现方式中，模型训练实体向模型训练管理实体发送训练状态信息，包括：模型训练实体向模型训练管理实体周期发送训练状态信息；或者，模型训练实体基于触发事件向模型训练管理实体发送训练状态信息。

结合第二方面，在第二方面的某些实现方式中，训练任务信息还指示第一目标模型训练实体采用目标长度的训练数据协助执行目标模型训练任务。

结合第二方面，在第二方面的某些实现方式中，方法还包括：模型训练实体接收来自目标模型训练实体的模型训练报告信息，模型训练报告信息指示完成目标模型训练任务获得的子模型；模型训练实体基于子模型执行模型聚合。

第二方面的各种实现方式是与第一方面的各种实现方式对应的第一模型训练实体的方法，关于第二方面的各种实现方式的有益技术效果，可以参考第一方面的相关实现方式的说明，在此不予以赘述。

第三方面，提供了一种模型训练管理的方法，该方法可以由模型训练实体或者模型训练实体中的芯片实现，方法包括：模型训练实体向模型训练管理实体发送算力资源信息，算力资源信息指示模型训练实体具有的用于模型训练的空闲算力资源；模型训练管理实体接收来自模型训练管理实体的第一训练任务配置信息，第一训练任务配置信息指示协助第一模型训练实体执行目标模型训练任务；模型训练管理实体协助第一模型训练管理实体执行目标模型训练任务。

结合第三方面，在第三方面的某些实现方式中，述模型训练实体向模型训练管理实体发送算力资源信息，包括：模型训练实体向模型训练管理实体周期发送算力资源信息；或者，模型训练实体接收来自模型训练管理实体的算力资源查询信息；模型训练实体向模型训练管理实体发送算力资源信息。

结合第三方面，在第三方面的某些实现方式中，模型训练管理实体协助第一模型训练管理实体执行目标模型训练任务，包括：模型训练实体获取目标训练数据；模型训练实体采用目标训练数据协助第一模型训练管理实体执行目标模型训练任务。

结合第三方面，在第三方面的某些实现方式中，方法还包括：模型训练实体向第一模型训练实体发送模型训练报告信息，模型训练报告信息指示完成目标模型训练任务获得的子模型。

结合第三方面，在第三方面的某些实现方式中，方法还包括：模型训练实体向模型训练管理实体发送协助训练反馈信息，协助训练反馈信息指示以下至少一项：模型训练实体执行目标模型训练任务达到的精度、模型训练实体执行目标模型训练任务耗费的时长、模型训练实体执行目标模型训练任务的执行进度、模型训练实体执行目标模型训练任务占用的资源数量。

结合第三方面，在第三方面的某些实现方式中，方法还包括：模型训练实体向模型训练管理实体发送网络状态更改信息，网络状态更改信息指示模型训练实体不能够完成目标模型训练任务。

第三方面的各种实现方式是与第一方面的各种实现方式对应的第一目标模型训练实体的方法，关于第三方面的各种实现方式的有益技术效果，可以参考第一方面的相关实现方式的说明，在此不予以赘述。

第四方面，提供了一种模型训练管理的方法，该方法可以应用于一种通信系统，该通信系统包括模型训练管理实体和多个模型训练实体，该方法包括：第一模型训练实体向模型训练管理实体发送训练状态信息，模型训练管理实体接收第一模型训练实体的训练状态信息，训练状态信息指示第一模型训练实体具有的至少一个模型训练任务；模型训练管理实体获取多个算力资源信息，多个算力资源信息分别指示多个模型训练实体具有的用于模型训练的空闲算力资源；模型训练管理实体基于多个算力资源信息在多个模型训练实体中确定第一目标模型训练实体；模型训练管理实体向第一目标模型训练实体发送第一训练任务配置信息，第一目标模型训练管理实体接收来自模型训练管理实体的第一训练任务配置信息，第一训练任务配置信息指示协助第一模型训练实体执行目标模型训练任务；第一目标模型训练管理实体协助第一模型训练管理实体执行目标模型训练任务。

第四方面的各种实现方式是与第一方面的各种实现方式对应的系统的方法，关于第四方面的各种实现方式的有益技术效果，可以参考第一方面的相关实现方式的说明，在此不予以赘述。

第五方面，提供了一种通信装置，该装置包括收发模块和处理模块，其中收发模块用于接收第一模型训练实体的训练状态信息，训练状态信息指示第一模型训练实体具有的至少一个模型训练任务；收发模块还用于获取多个算力资源信息，多个算力资源信息分别指示多个模型训练实体具有的用于模型训练的空闲算力资源；处理模块用于基于多个算力资源信息在多个模型训练实体中确定第一目标模型训练实体；收发模块还用于向第一目标模型训练实体发送第一训练任务配置信息，第一训练任务配置信息指示协助第一模型训练实体执行至少一个模型训练任务中的目标模型训练任务。

第五方面所述的通信装置具有实现第一方面，或第一方面的任一可能的实现方式中的方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的单元。

第五方面的各种实现方式是与第一方面的各种实现方式对应的模型训练管理实体的装置，关于第五方面的各种实现方式的有益技术效果，可以参考第一方面的相关实现方式的说明，在此不予以赘述。

第六方面，提供了一种通信装置，该装置包括收发模块和处理模块，处理模块用于生成训练状态信息；收发模块用于向模型训练管理实体发送训练状态信息，训练状态信息指示模型训练实体具有的至少一个模型训练任务；收发模块还用于向模型训练管理实体发送算力资源信息，算力资源信息指示模型训练实体具有的用于模型训练的空闲算力资源；收发模块还用于接收来自模型训练管理实体的训练任务信息，训练任务信息指示协助执行至少一个模型训练任务中的目标模型训练任务的第一目标模型训练实体。

第六方面所述的通信装置具有实现第二方面，或第二方面的任一可能的实现方式中的方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的单元。

第六方面的各种实现方式是与第一方面的各种实现方式对应的第一模型训练实体的装置，关于第六方面的各种实现方式的有益技术效果，可以参考第一方面的相关实现方式的说明，在此不予以赘述。

第七方面，提供了一种通信装置，该装置包括收发模块和处理模块，收发模块用于向模型训练管理实体发送算力资源信息，算力资源信息指示模型训练实体具有的用于模型训练的空闲算力资源；收发模块还用于接收来自模型训练管理实体的第一训练任务配置信息，第一训练任务配置信息指示协助第一模型训练实体执行目标模型训练任务；处理模块用于协助第一模型训练管理实体执行目标模型训练任务。

第七方面所述的通信装置具有实现第三方面，或第三方面的任一可能的实现方式中的方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的单元。

第七方面的各种实现方式是与第一方面的各种实现方式对应的第一目标模型训练实体的装置，关于第七方面的各种实现方式的有益技术效果，可以参考第一方面的相关实现方式的说明，在此不予以赘述。

第八方面，提供一种通信装置，包括处理器和存储器。可选地，还可以包括收发器。其中，存储器用于存储计算机程序，处理器用于调用并运行存储器中存储的计算机程序，并控制收发器收发信号，以使通信装置执行如第一方面至第四方面中的任一方面，或这些方面中的任一方面的任一可能的实现方式中的方法。

示例性地，该通信装置为模型训练管理功能。

第九方面，提供一种通信装置，包括处理器和存储器。可选地，还可以包括收发器。其中，存储器用于存储计算机程序，处理器用于调用并运行存储器中存储的计算机程序，并控制收发器收发信号，以使通信装置执行如第一方面至第四方面中的任一方面，或这些方面中的任一方面的任一可能的实现方式中的方法。

示例性地，该通信装置为模型训练功能。

第十方面，提供一种通信装置，包括处理器和通信接口，所述通信接口用于接收数据和/或信息，并将接收到的数据和/或信息传输至所述处理器，所述处理器处理所述数据和/或信息，以及，通信接口还用于输出经处理器处理之后的数据和/或信息，以使得如第一方面至第四方面中的任一方面，或这些方面中的任一方面的任一可能的实现方式中的方法被执行。

其中，该通信装置可以为应用于模型训练管理功能的芯片。

第十一方面，提供一种通信装置，包括处理器和通信接口，所述通信接口用于接收数据和/或信息，并将接收到的数据和/或信息传输至所述处理器，所述处理器处理所述数据和/或信息，以及，通信接口还用于输出经处理器处理之后的数据和/或信息，以使得如第一方面至第四方面中的任一方面，或这些方面中的任一方面的任一可能的实现方式中的方法被执行。

其中，该通信装置可以为应用于模型训练功能的芯片。

第十二方面，提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机指令，当计算机指令在计算机上运行时，使得如第一方面至第四方面中的任一方面，或这些方面中的任一方面的任一可能的实现方式中的方法被执行。

第十三方面，提供一种计算机程序产品，所述计算机程序产品包括计算机程序代码，当所述计算机程序代码在计算机上运行时，使得如第一方面至第四方面中的任一方面，或这些方面中的任一方面的任一可能的实现方式中的方法被执行。

第十四方面，提供一种无线通信系统，包括如第五方面所述的通信装置，和/或如第六方面所述的通信装置，和/或如第七方面所述的通信装置。

附图说明

图1是适用本申请实施例适用的一种通信系统的示意性结构图；

图2是本申请实施例适用的第一种应用场景的示意性结构图；

图3是本申请实施例适用的第二种应用场景的示意性结构图；

图4是多个模型训练实体分别执行模型训练任务的示意图；

图5是本申请实施例提供的一种模型训练管理的方法的示意性流程图；

图6是本申请实施例提供的一种获取训练状态信息和算力资源信息的方式的示意性流程图；

图7是本申请实施例提供的一种目标模型训练任务整体训练的方法的示意性流程图；

图8是本申请实施例提供的一种目标模型训练任务分解训练的方法的示意性流程图；

图9是本申请实施例提供的一种执行目标模型训练任务的过程中进行反馈的方法的示意性流程图；

图10是本申请实施例提供的一种两个模型训练管理实体进行模型训练管理的一种实现方式的示意性流程图；

图11至图13是本申请实施例提供的可能的装置的示意性结构图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

本申请实施例的方法可以应用于长期演进技术(long term evolution，LTE)系统，长期演进高级技术(long term evolution-advanced，LTE-A)系统，增强的长期演进技术(enhanced long term evolution-advanced，eLTE)，第五代(the 5^th Generation，5G)移动通信系统新空口(New Radio，NR)系统，也可以扩展到类似的无线通信系统中，如无线保真(wireless-fidelity，WiFi)，全球微波互联接入(worldwide interoperability for microwave access，WIMAX)，以及第三代合作伙伴计划(3^rd generation partnership project，3gpp)相关的蜂窝系统。

为了清楚，以下对本申请实施例中的部分术语进行解释。

1.推理模型(也可以简称为模型)：从数据中学习到的，可以实现特定功能/映射的函数。模型可以基于人工智能(artificial intelligence，AI)或者机器学习(machine learning，ML)的技术得到，因此，也可以称为人工智能/AI模型、机器学习/ML模型等。常用的用于生成AI/ML模型的算法包括：监督学习、无监督学习、增强学习，对应的模型可以称为监督学习模型、无监督学习模型、增强学习模型。示例的，监督学习模型可以是分类模型、预测模型、回归模型等，无监督学习模型可以是聚类模型。此外，模型还可以基于神经网络(neural network，NN)技术得到，这种模型也可以称为神经网络模型、深度学习模型等。

2.模型训练实体

推理模型的训练实体称为模型训练实体。示例性地，模型训练实体的能力或功能可以部署在某个网元上，该网元称为模型训练网元；模型训练实体的能力或功能也可以部署在其他设备上，对此，本申请实施例不作限定；为叙述方便，本申请实施例以模型训练网元为例进行说明，但都可以替换为训练推理模型的能力或功能的其他设备。

3.模型训练管理实体

模型训练管理实体用于对多个模型训练实体的训练任务和算力资源进行管理编排。示例性地，模型训练管理实体的能力或功能可以部署在某个网元上，该网元称为模型训练管理网元；模型训练管理实体的能力或功能也可以部署在其他设备上，对此，本申请实施例不作限定；为叙述方便，本申请实施例以模型训练管理网元为例进行说明，但都可以替换为管理模型训练网元的能力或功能的其他设备。

4.模型推理实体

基于模型进行推理或预测的实体称为模型推理实体。示例性地，模型推理实体的能力或功能可以部署在某个网元上，该网元称为模型推理网元；模型推理实体的能力或功能也可以部署在其他设备上，对此，本申请实施例不作限定；为叙述方便，本申请实施例以模型推理网元为例进行说明，但都可以替换为基于模型进行推理或预测的能力或功能的其他设备。

5.模型训练任务

模型训练任务是模型训练实体对模型进行模型训练时能够划分的基本工作单位。

上文对本申请实施例涉及的相关术语进行了说明，以下结合图1至图4对本申请实施例适用的应用场景进行说明。

图1是本申请实施例适用的一种通信系统的示意性结构图。首先对该通信系统100中可能涉及的装置进行说明。

1、模型训练管理网元110：能够用于对多个模型训练实体的训练任务和算力资源进行管理编排。模型管理网元110可以部署于网络管理系统(network management system，NMS)中、或者也可以部署于网元管理系统(element management system，EMS)。其中，NMS用于网络的运行、管理和维护，也可以称之为跨域管理系统。EMS用于管理一个或多个特定类别的网元，也可以称之为域管理系统或单域管理系统。示例性地，模型训练管理网元110可以与至少一个模型训练网元相连，比如参见图1，模型训练管理网元110分别与模型训练网元121和模型训练网元122相连。

2、模型训练网元121、模型训练网元122：能够用于对模型进行训练。模型训练实体121可以部署于EMS、NMS、无线接入网(radio access network，RAN)域中的网络设备、核心网域中的核心网网元，例如网络数据分析功能(network data analytics function，NWDAF)网元。类似地，模型训练实体122也可以部署于EMS、NMS、网络设备或核心网网元中。需要说明的是，不同的模型训练网元可以部署于同一个系统、设备或网元中，比如模型训练网元121和模型训练网元122可以部署与同一个网络设备中；或者，不同的模型训练网元可以部署于不同的系统、设备或网元中，比如模型训练网元121和模型训练网元122分别部署于不同的网络设备，再比如模型训练网元121部署于网络设备中，模型训练网元122部署于核心网网元中等，本申请对此不作特别限定。

3、模型推理网元130：能够用于基于模型进行推理或预测。模型推理网元130可以部署于EMS中，比如EMS中的管理数据分析功能(management data analytics function，MDAF)、或者模型推理网元130也可以部署于RAN域的网络设备中、或者核心网域中的核心网网元，比如,NWDAF网元。

需要说明的是，图1以模型推理网元130与模型训练网元121相连进行示例性说明，模型推理网元130和模型训练网元121可以部署于不同的设备，比如模型训练网元121可以部署于NMS，模型推理网元130可以部署于网络设备；模型推理网元130和模型训练网元121也可以部署于同一个的设备，比如模型推理网元130和模型训练网元121可以部署于同一个网络设备或核心网网元，本申请对此不作特别限定。

还需要说明的是，虽然图未示出，通信系统100中可以包括多个模型训练管理网元，比如NMS和 EMS中可以分别部署模型训练管理网元。通信系统100中也可以包括多个模型推理网元，比如模型训练网元122也可以与一个模型推理网元相连。本申请对模型训练网元、模型训练管理功能网元、模型推理网元的个数不作限定。

为了更加便于理解本申请实施例，以下结合图2至图4对可能的本申请实施例适用的应用场景进行说明。

图2是本申请实施例适用的第一种应用场景的示意性结构图。

参见图2，NMS 210部署有模型训练管理网元211和模型训练网元212，NMS 210可以对网络设备220、网络设备230、NWDAF 240和NWDAF 250进行管理，网络设备220上部署有模型训练网元221，网络设备230上部署有模型训练网元231，NWDAF 240上部署有模型训练网元241，NWDAF 250上部署有模型训练网元251。模型训练管理网元211和模型训练网元221之间可以通过NMS 210和网络设备220之间的通信接口进行通信。模型训练管理网元211和模型训练网元231之间可以通过NMS 210和网络设备230之间的通信接口进行通信。模型训练管理网元211和模型训练网元241之间可以通过NMS 210和NWDAF 240之间的通信接口进行通信。模型训练管理网元211和模型训练网元251之间可以通过NMS 210和NWDAF 250之间的通信接口进行通信。模型训练管理网元211和模型训练网元212之间可以通过NMS 210中的内部接口进行通信。

图3是本申请实施例适用的第二种应用场景的示意性结构图。

参见图3，NMS 310部署有模型训练管理网元311和模型训练网元312，EMS 320部署有模型训练管理网元321和模型训练网元322。NMS 310可以通过EMS 320管理网络设备330、网络设备340、NWDAF 350和NWDAF 360。模型训练网元331部署于网络设备330，模型训练网元341部署于网络设备340，模型训练网元351部署于NWDAF 350，模型训练网元361部署于NWDAF 360。模型训练管理网元311和模型训练管理网元321可以共同对模型训练网元312、模型训练网元322、模型训练网元331、模型训练网元341、模型训练网元351、模型训练网元361进行管理，比如EMS 320中的模型训练管理网元321可以分别与模型训练网元312、模型训练网元322、模型训练网元331、模型训练网元341、模型训练网元351、模型训练网元361进行通信，获取每个模型训练网元的信息，NMS 310中的模型训练管理网元311可以为模型训练管理网元321提供分析信息的策略。

模型训练管理网元311和模型训练管理网元321之间可以通过NMS 310和EMS 320之间的接口进行通信。模型训练管理网元321和模型训练网元331之间可以通过EMS 320和网络设备330之间的通信接口进行通信。模型训练管理网元321和模型训练网元341之间可以通过EMS 320和网络设备340之间的通信接口进行通信。模型训练管理网元321和模型训练网元351之间可以通过EMS 320和NWDAF 350之间的通信接口进行通信。模型训练管理网元321和模型训练网元361之间可以通过EMS 320和NWDAF 360之间的通信接口进行通信。模型训练管理网元311和模型训练网元312之间可以通过NMS 310中的内部接口进行通信。模型训练管理网元321和模型训练网元322之间可以通过EMS 320中的内部接口进行通信。

另外，虽然图未示出，NMS也可以通过多个EMS管理多个模型训练网元，本申请对此不作特别限定。

需要说明的是，本申请的方案可以应用于包含相应实体的其它系统中，本申请不作限定。可以理解的是，上述实体或者功能既可以是硬件设备中的网络元件，也可以是在专用硬件上运行软件功能，或者是平台(例如，云平台)上实例化的虚拟化功能。可选的，上述实体或者功能可以由一个设备实现，也可以由多个设备共同实现，还可以是一个设备内的一个功能模块，本申请实施例对此不作具体限定。

通过上文可知，通信系统中可以部署多个模型训练网元，每个模型训练网元中可以具有多个训练任务。然而，由于不同的模型训练网元所处的网络环境和网络需求可能不同且动态变化，不同的模型训练网元具有的模型训练任务也会随之不同。为了便于理解本申请实施例，以下结合图4进行说明。

图4是多个模型训练实体分别执行模型训练任务的示意图。图4中示出了三个分别执行模型训练任务的模型训练网元，由于不同的模型训练实体所处的网络环境和网络需求可能不同且动态变化，不同的模型训练实体具有的模型训练任务也会随之不同。参见图4，模型训练网元#1的训练任务超负荷，并且有部分训练任务处于排队中。模型训练网元#3的训练任务也处于满负荷，没有空闲的算力资源。模型训练网元#2还有大量的空闲算力资源没有被使用。可见，在某个时间段内，多个模型训练网元的模型训练任务分布不平衡，有的模型训练任务不能得到及时的执行，而有的算力资源会被闲置没有使用，导致通信系统模型训练的整体效率较低。

本申请提出了一种模型训练管理的方法、装置和系统，能够提高模型训练的效率，以下结合图5首先对模型训练管理的方法进行说明。

首先需要说明的是，为了便于描述，图5所示的实施例以一个模型训练管理实体和两个模型训练实体进行描述，其中，两个模型训练实体分别用模型训练实体#1和模型训练实体#2标识，模型训练实体#1可以是被协助目标模型训练任务的第一模型训练实体的一种示例，模型训练实体#2可以是协助执行目标模型训练任务的目标模型训练实体的一种示例。本申请对模型训练实体的数量不作特别限定，示例性地，模型训练实体#2的数量可以是一个或多个，即可以有一个或多个目标模型训练实体协助执行目标模型训练任务。

模型训练管理实体可以是图1至图3所述的任意的模型训练管理实体，模型训练实体#1和模型训练实体#2可以是图1至图3所述的任意的模型训练实体，本申请对此不作特别限定。

图5是本申请实施例提供的一种模型训练管理的方法的示意性流程图。

S501，模型训练实体#1向模型训练管理实体发送训练状态信息；

对应地，模型训练管理实体接收来自模型训练实体#1的该训练状态信息。

训练状态信息指示模型训练实体#1具有的至少一个模型训练任务。

可选地，训练状态信息包括以下信息中的至少一项：模型训练任务标识信息、模型训练任务的优先级信息、模型训练任务的进程信息、模型训练任务的性能信息。

其中，模型训练任务标识信息指示模型训练实体#1具有的至少一个模型训练任务的训练标识，比如，模型训练实体#1具有三个模型训练任务1-3，那么模型训练任务标识信息可以包括三个模型训练任务的标识。

模型训练任务的优先级信息指示模型训练实体#1具有的至少一个模型训练任务的优先级。比如，优先级信息可以分别指示模型训练实体#1具有的至少一个模型训练任务中每一个模型训练任务的优先级，例如优先级信息指示模型训练任务1的优先级为高、模型训练任务2和3的优先级为低。优先级可以用高、中、低表示，也可以用数字(1、2、3等)表示，数字越小表示优先级越高。或者，优先级信息也可以指示模型训练实体#1具有的优先级为高的模型训练任务的个数，例如优先级信息指示模型训练实体#1具有1个优先级为高的模型训练任务。需要说明的是，本申请对模型训练任务的优先级的设置不作任何限定，比如优先级可以基于请求执行的时间先后顺序确定，或者基于模型训练任务的重要程度确定等。

模型训练任务的进程信息指示模型训练实体#1进行模型训练的进程。比如，进程信息可以指示模型训练实体#1具有的至少一个模型训练任务中每一个模型训练任务的进程状态。其中，进程状态可以包括等待运行、正在运行、已完成运行。例如，进程信息指示模型训练任务1已完成运行、模型训练任务2正在运行、模型训练任务3已完成运行。或者，进行信息可以指示模型训练实体#1进行模型训练的总进程，比如进程信息指示模型训练实体#1中未完成运行(即正在运行或等待运行)的模型训练任务的个数，例如进程信息指示模型训练实体#1中还有两个模型训练任务未完成。

模型训练任务的性能信息指示模型训练实体#1进行模型训练的性能。示例性地，性能信息可以指示以下至少一项：模型训练任务进行单次训练需要的时间、模型训练任务进行单次训练需要占用的算力资源、模型训练任务需要训练的次数、模型训练任务进行多次训练时每次训练需要的平均时间、模型训练任务进行多次训练时每次训练需要占用的平均算力资源、模型训练任务进行多次训练需要的总时间、模型训练任务需要多次训练需要占用的总算力资源、执行多个模型训练任务的平均训练时间、执行多个模型训练任务需要占用的平均算力资源。

可选地，训练状态信息还指示模型训练实体#1请求协作训练。即模型训练实体#1可以确定是否请求协作训练。

其中，协作训练可以是指不是模型训练实体#1单独执行某个模型训练任务，比如，该模型训练任务可以由多个模型训练实体协作执行，再比如，该训练任务可以是由其它模型训练实体(例如模型训练实体#2)协作执行。

在第一种可能的实现方式中，模型训练实体#1基于空闲的算力资源是否能够满足训练任务的需求确定是否请求协作训练。如果能够满足，那么模型训练实体#1确定不请求协作训练。如果不能够满足，那么模型训练实体#1请求协作训练。

示例性地，模型训练实体#1如果要满足训练任务的需求，预计需要50％的算力资源，然而模型训练实体#1当前仅具有30％的空闲算力资源，那么模型训练实体#1确定请求协作训练。

在第二种可能的实现方式中，模型训练实体#1基于模型训练任务的优先级确定是否需要进行协作训练。

示例性地，模型训练实体#1可能具有多个等待运行的训练任务，多个训练任务中优先级高的训练任务将会比优先级低的训练任务先运行。若模型训练实体#1具有比新增的训练任务的优先级还高的训练任务，且空闲的算力资源不够完成全部等待运行的训练任务，即空闲的算力资源中扣除优先级高的训练任务需要的资源后，剩余的算力资源不能够满足优先级较高的训练任务的需求，那么模型训练实体#1可以确定请求协作训练。

可选地，训练状态信息还指示请求协作训练的目标模型训练任务。即模型训练实体#1可以确定请求协作训练的目标模型训练任务。

需要说明的是，请求协作训练的目标模型训练任务可以是模型训练实体#1中的至少一个模型训练任务中的任意一个或多个，即目标模型训练任务可以是新增的模型训练任务，也可以是其它模型训练任务，本申请对此不作特别限定。

在第一种可能的实现方式中，模型训练实体#1根据至少一个训练任务的训练进程确定目标模型训练任务。示例性地，模型训练实体#1将处于等待运行的模型训练任务确定为目标模型训练任务。

在第二种可能的实现方式中，模型训练实体#1根据至少一个模型训练任务的优先级确定目标模型训练任务。示例性地，模型训练实体#1将优先级低的模型训练任务确定为目标模型训练任务，例如，模型训练实体#1可以设置每个模型训练任务的优先级值，比如数值1至10表示从优先级高至优先级低的不同的优先级，如果模型训练任务的优先级值大于或等于特定阈值(例如5)，那么将该模型训练任务确定为目标模型训练任务。其中，该特定阈值可以是预先配置的或者是动态确定(比如根据算力或者当前的网络状态确定)的，本申请对此不作特别限定。

示例性地，模型训练实体#1可以直接指示请求协作训练的目标模型训练任务，例如可以在训练状态信息中携带请求协作训练的模型训练任务的标识，比如携带模型训练任务2的标识，表示建议模型训练任务2进行协作训练。

再示例性地，模型训练实体#1也可以间接指示建议进行协作训练的目标模型训练任务。例如，训练状态信息可以指示将训练进程处于等待运行状态的训练任务进行协作训练，或者，也可以指示将训练进程处于等待运行状态、以及优先级低的训练任务进行协作训练。

需要说明的是，模型训练实体#1和模型管理训练实体也可以预先配置或者提前协商如何选取进行协作训练的训练任务，本申请对此不作特别限定。

可以理解的是，如果训练状态信息包括目标模型训练任务的标识信息，那么该目标模型训练任务的标识信息可以隐含请求协作训练。

还可以理解的是，该目标模型训练任务是模型训练实体#1建议的进行协作训练的模型训练任务，模型训练管理实体可以根据实际的网络状态和其它模型训练实体的算力资源更改协作训练的目标模型训练任务，本申请对此不作特别限定。

可选地，模型训练实体#1可以周期向模型训练管理实体发送训练状态信息，比如多个模型训练实体可以被配置为周期上报训练状态信息，其中上报的周期可以是预先设置的或者模型训练管理实体配置的，本申请对此不作特别限定。或者，模型训练实体#1可以基于触发向模型训练管理实体发送训练状态信息，比如模型训练实体可以在新增模型训练任务的情况下向模型训练管理实体发送训练状态信息，在这种情况下，训练状态信息可以仅包括新增的模型训练任务的标识信息、优先级信息等信息。为了便于理解本申请实施例，有关模型训练实体向模型训练管理实体发送训练状态信息的更为详细的描述可以参见下文图6的介绍，在此不予赘述。

S502，模型训练管理实体获取多个算力资源信息。

多个算力资源信息分别指示多个模型训练实体具有的用于模型训练的空闲算力资源。

示例性地，模型训练管理实体接收来自模型训练实体#1的算力资源信息#1，算力资源信息#1指示模型训练实体#1具有的用于模型训练的空闲算力资源。模型训练管理实体接收来自模型训练实体#2的算力资源信息#2，算力资源信息#2指示模型训练实体#2具有的用于模型训练的空闲算力资源。

算力资源信息可以包括以下至少一项：硬件资源信息、资源使用信息。其中，硬件资源信息可以指示硬件资源的性能，比如硬件资源信息可以指示以下至少一项：硬件资源的类型、硬件资源的核数、硬件资源的处理频率。或者，硬件资源信息也可以指示量化后的运算能力，比如每秒浮点运算次数(floating-point operations per second，FLOPS)。进而，模型训练管理功能可以通过上述信息确定硬件资源的运算性能。另外，资源使用信息可以指示硬件资源的利用率，比如资源使用信息指示硬件资源空闲的算力、已被使用的算力、或者还能够支持的用于模型训练的算力等。进而模型训练管理功能可以获知模型训练实体能够用于模型训练的运算能力。

示例性地，上述硬件资源可以包括处理器、存储器等，处理器可以是中央处理单元(central processing unit，CPU、图形处理单元(graphics processing unit，GPU)、神经网络处理单元(neural network processing unit，NPU)中任一项或多项。存储器可以是U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质，本申请对此不作特别限定。

可选地，多个模型训练实体可以周期分别向模型训练管理实体发送算力资源信息，比如多个模型训练实体可以被配置为周期上报算力资源信息，其中上报的周期可以是预先设置的或者模型训练管理实体配置的，本申请对此不作特别限定。或者，模型训练实体基于请求向模型训练管理实体发送算力资源信息，比如模型训练管理实体向模型训练实体发送算力资源查询信息，进而模型训练实体向模型训练管理实体发送算力资源查询信息。为了便于理解本申请实施例，有关模型训练管理实体获取算力资源信息的更为详细的描述可以参见下文图6的介绍，在此不予赘述。

可选地，模型训练管理实体分别向多个模型训练实体发送多个算力资源查询信息，模型训练管理实体分别接收来自多个模型训练实体的多个算力资源信息。即模型训练实体可以基于模型训练管理实体的查询信息返回算力资源信息。

示例性地，模型训练管理实体基于训练状态信息确定第一模型训练实体不能够独立执行全部所述至少一个模型训练任务时，分别向多个模型训练实体发送多个算力资源查询信息。模型训练实体可以基于模型训练管理实体的查询信息返回算力资源信息，即模型训练管理实体可以在具有需求的情况下，比如确定要分配协助训练的情况下向模型训练实体发送查询信息，能够节省传输资源。

S503，模型训练管理实体基于多个算力资源信息在多个模型训练实体中确定至少一个模型训练实体#2。

该至少一个模型训练实体#2用于协作执行目标模型训练任务。

可以理解的是，如果步骤S501中的训练状态信息指示模型训练实体#1请求协作训练的目标模型训练任务，那么模型训练管理实体可以直接基于该目标模型训练任务的信息和多个算力资源信息在多个模型训练实体中确定模型训练实体#2。如果步骤S501中的训练状态信息指示模型训练实体#1请求协作训练，但是没有指示目标模型训练任务，那么模型训练管理实体在确定模型训练实体#2之前，模型训练管理实体基于训练状态信息和多个算力资源信息确定是否为模型训练实体#1配置协作训练。如果步骤S501中的训练状态信息没有指示模型训练实体#1请求协作训练，也没有指示目标模型训练任务，那么模型训练管理实体在确定模型训练实体#2之前，模型训练管理实体基于训练状态信息和多个算力资源信息确定是否为模型训练实体#1配置协作训练，在确定为模型训练实体#1配置协作训练的情况下，确定目标模型训练任务。以下分别对模型训练管理实体确定是否为模型训练实体#1配置协作训练，以及确定目标模型训练任务进行说明。

针对模型训练管理实体确定是否为模型训练实体#1配置协作训练，在第一种可能的实现方式中，模型训练管理实体基于模型训练实体#1上报的算力资源信息和训练状态信息确定是否为模型训练实体#1配置协作训练。在这种实现方式中，模型训练管理实体确定是否为模型训练实体#1配置协作训练与模型训练实体#1确定是否请求协作训练的方式类似，比如可以基于空闲的算力资源确定或者模型训练任务的优先级确定，详细的描述请参考上文步骤S501，在此不予赘述。

在第二种可能的实现方式中，模型训练管理实体基于多个模型训练实体上报的多个算力资源信息和训练状态信息确定是否为模型训练实体#1配置协作训练。示例性地，模型训练实体根据多个算力资源信息指示的多个模型训练实体的空闲算力确定能够处理的模型训练任务，如果空闲算力不能够支持协助执行训练状态信息指示的模型训练任务，那么模型训练管理实体确定不为模型训练实体#1配置协作训练，如果空闲算力能够支持协助执行训练状态信息指示的模型训练任务，那么模型训练管理实体确定为模型训练实体#1配置协作训练。

针对模型训练管理实体在确定为模型训练实体#1配置协作训练的情况下，确定目标模型训练任务。在第一种可能的实现方式中，模型训练管理实体基于模型训练实体#1上报的算力资源信息和训练状态信息确定目标模型训练任务。在这种实现方式中，模型训练管理实体确定是目标模型训练任务与模型训练实体#1确定目标模型训练任务的方式类似，比如可以基于训练进程或者优先级确定，详细的描述请参考上文步骤S501，在此不予赘述。

在第二种可能的实现方式中，模型训练管理实体基于多个模型训练实体上报的多个算力资源信息和训练状态信息确定目标模型训练任务。示例性地，模型训练管理实体可以基于训练状态信息确定候选的协作训练的模型训练任务，比如将全部处于等待运行状态的模型训练任务作为候选的协作训练的模型训练任务，模型训练管理实体再基于多个算力资源信息指示的多个模型训练实体的空闲算力在获选的模型训练任务中确定目标模型训练任务，比如确定多个模型训练实体的空闲算力能够处理的模型训练任务作为目标模型训练任务，本申请对确定模型训练任务的具体方式不作特别限定。

上文对是否进行协助训练以及协作训练的目标模型训练任务进行了说明，可选地，模型训练管理实体还可以采用如下两种方式实现目标模型训练任务的协作训练，其中，方式1可以视为整体协作训练，即将目标模型训练任务配置给除模型训练实体#1以外的模型训练实体进行训练，方式2可以视为分解协作训练，比如将目标模型训练任务分解为多个目标模型训练子任务，每个目标模型训练子任务对应目标长度的训练数据，由多个模型训练实体分别采用目标长度的训练数据进行协作训练，或者比如将目标模型分解为多个目标子模型，每个目标子模型可以被独立训练，对目标子模型的训练可以理解为是一个目标模型训练子任务。为了便于了解本申请实施例，有关方式1更详细的说明请参见下文图7的描述，有关方式2更详细的说明请参见下文图8的描述，在此不予赘述。

可以理解的是，模型训练管理实体可以预先设置采用哪一种方式进行处理，或者模型训练管理实体也可以基于目标模型训练任务、算力资源信息或模型训练实体的能力确定采用哪一种方式进行处理，比如如果存在一个模型训练实体的空闲算力资源能够支持执行目标模型训练任务，那么模型训练管理实体可以采用方式1进行配置，即该模型训练实体可以单独执行目标模型训练任务；如果不存在一个模型训练实体的空闲算力资源能够支持单独执行目标模型训练任务，那么模型训练管理实体可以采用方式2进行配置，即将目标模型训练任务分解成多个目标模型训练子任务，并选择多个目标模型训练实体分别执行多个目标模型训练子任务。

还可以理解的是，模型训练管理实体确定一个或多个目标模型训练实体(即本申请实施例中的模型训练实体#2)的方式类似，为了便于描述，以下以确定一个模型训练实体#2的方式进行说明。

可选地，模型训练管理功能对目标模型训练任务的算力需求进行预估。进而该目标模型训练任务的算力需求可以用于确定模型训练实体#2。

在一种可能的实现方式中，模型训练管理实体根据目标模型训练任务的性能需求确定目标模型训练任务的算力需求。其中，性能需求可以包括以下至少一项：目标模型训练任务的训练精确度、目标模型训练任务的训练时长。算力需求可以包括以下至少一项：预计训练目标模型训练任务所需的总浮点运算数(FLOPs)、预计模型训练目标模型训练任务的每秒浮点运算次数(FLOPS)。

示例性地，模型训练管理实体可以根据目标模型训练任务的训练精确度确定为了达到该训练精确度所需的总浮点运算次数，再根据总浮点运算次数和训练时长确定FLOPS。例如：针对用于进行信道估计的模型的模型训练任务，该模型训练任务要达到90％的训练精确度需要的计算量预计为0.5TFLOPs(每层的运算次数*层数*迭代次数)，如果期望完成训练的训练时长为1s，那么模型训练管理实体可以确定算力需求为0.5TFLOPS。

可选地，模型训练管理功能基于目标模型训练任务的算力需求和多个算力资源信息确定模型训练实体#2。

在一种可能的实现方式中，模型训练管理实体可以根据多个模型训练实体中每一个模型训练实体的算力资源信息确定模型训练实体#2。

示例性地，模型训练管理实体获取多个模型训练实体的硬件资源信息和资源使用信息，基于资源使用信息确定还具有空闲算力的至少一个模型训练实体，再基于硬件资源信息从至少一个模型训练实体中确定能够支持目标模型训练任务算力需求的模型训练实体#2。

可选地，如果存在多个支持目标模型训练任务算力需求的候选的模型训练实体，那么在多个候选的模型训练实体中，模型训练管理实体可以将与模型训练实体#1最邻近的模型训练实体确定为对目标模型训练任务进行协作训练的模型训练实体#2。其中，与模型训练实体#1最邻近的模型训练实体可以是指距离模型训练实体#1最近的模型训练实体，或者可以是与模型训练实体#1相隔传输节点最少的模型训练实体，本申请对此不作特别限定。

S504，模型训练管理实体向模型训练实体#2发送第一训练任务配置信息；

对应地，模型训练实体#2接收来自模型训练管理实体的第一训练任务配置信息。

该第一训练任务配置信息指示模型训练实体#2协助模型训练实体#1执行至少一个模型训练任务中的目标模型训练任务。

可选地，该第一训练任务配置信息指示目标模型训练任务的标识。进而模型训练实体#2可以基于目标模型训练任务的标识获取待训练的模型和训练数据。

可选地，该第一训练任务配置信息还指示目标模型训练任务的目标训练数据。示例性地，如果模型训练管理实体具有用于训练目标模型训练任务的目标训练数据的信息，比如目标训练数据、目标训练数据的地址或者目标训练数据的获取方式等，那么模型训练管理实体还可以将目标训练数据的信息指示给模型训练功能#2。

可选地，该第一训练任务配置信息还指示模型训练实体#1的标识。进而，模型训练实体#2可以根据协助模型训练实体1执行协作训练。

可选地，S505，模型训练管理实体向模型训练实体#1发送训练任务信息；

对应地，模型训练实体#1接收来自模型训练管理实体的训练任务信息。

如果模型训练管理实体是采用上文的方式1进行配置，那么训练任务信息也可以称为训练任务配置通知信息，该训练任务配置通知信息指示模型训练实体#2协助执行目标模型训练任务。即该训练任务配置通知信息指示模型训练实体#1是模型训练实体#2协助执行目标模型训练任务。

示例性地，该训练任务通知信息可以指示模型训练实体#2的标识。如果目标模型训练任务是模型训练管理实体确定的，那么该训练任务通知信息还可以指示目标模型训练任务的标识。

如果模型训练管理实体是采用上文的方式2进行配置，那么训练任务信息也可以称为第二训练任务配置信息，该第二训练任务配置信息指示模型训练实体#2采用目标长度的训练数据协助执行目标模型训练任务。

示例性地，该第二训练任务配置信息可以指示模型训练实体#2的标识，以及模型训练实体#2进行协作训练采用的训练数据的目标长度。如果目标模型训练任务是模型训练管理实体确定的，那么该训练任务通知信息还可以指示目标模型训练任务的标识。

S506，模型训练实体#2获取训练数据信息，并协助执行目标模型训练任务。

该训练数据信息指示模型训练实体#2用于协助执行目标模型训练任务的训练数据。

在第一种可能的实现方式中，模型训练实体#2从模型训练管理实体获取训练数据信息，比如第一训练任务配置信息还指示目标模型训练任务的目标训练数据。

在第二种可能的实现方式中，模型训练实体#2可以从模型训练实体#1获取训练数据信息，示例性地，模型训练实体#1可以基于接收的训练任务信息获取模型训练实体#2的标识，模型训练实体#1主动向模型训练实体#2发送训练数据信息。

可选地，该训练数据信息还指示目标模型训练任务的标识、训练数据的数据地址。

需要说明的是，训练数据的数据地址可以是存储训练数据的装置的地址，进而模型训练实体#2可以根据训练数据的数据地址从该装置中下载训练数据，比如，该训练数据可以存储于模型训练实体#1中，或者模型训练实体#1所部署的装置中。或者，训练数据的数据地址可以是训练数据的采集地址，进而模型训练实体#2可以根据数据地址进行数据采集，采集获得的数据可以用于目标模型训练任务的训练。

示例性地，如果模型训练功能#1和模型训练功能#2部署于NWDAF，那么训练数据可以存储于数据收集协调功能(data collection coordination function，DCCF)实体或者分析数据库功能(analytics data repository function，ADRF)实体中。例如，训练数据信息可以指示DCCF或ADRF的标识或者地址，模型训练实体#2可以向DCCF或ADRF发送用于请求训练数据的信息(例如Ndccf_DataManagement_Subscribe或Ndccf_DataManagement_Fetch或Nadrf_DataManagement_RetrievalRequest或Nadrf_DataManagement_RetrievalSubscribe)，DCCF或ADRF向模型训练实体#2发送训练数据。

可选地，该训练数据信息还指示目标长度。进而模型训练实体#2可以获取目标长度的训练数据进行训练。

模型训练实体#2可以采用训练数据对目标模型训练任务进行训练。本申请对目标模型训练任务进行训练的方式不作特别限定，比如模型训练实体#2可以采用批量梯度下降、小批量梯度下降或随机梯度下降等训练方式。

可选地，S507，模型训练实体#2可以向模型训练管理实体发送协助训练反馈信息；

对应地，模型训练管理实体接收来自模型训练实体#2的协助训练反馈信息。

在模型训练实体#2协助模型训练实体#1执行目标模型训练任务的过程中，模型训练实体#2可以向模型训练管理实体发送协助训练反馈信息。该协助反馈信息可以指示以下至少一项：模型训练实体#2执行目标模型训练任务达到的精度、目标模型训练实体#2执行目标模型训练任务耗费的时长、目标模型训练实体#2执行目标模型训练任务的执行进度、目标模型训练实体执行目标模型训练任务占用的资源数量。

示例性地，模型训练实体#2可以周期向模型训练管理实体发送协助训练反馈信息，该周期可以是预先设置的或者是模型训练管理实体配置的，本申请对此不作特别限定。

可选地，模型训练实体#2向模型训练管理实体发送网络状态更改信息，该网络状态信息指示模型训练实体#2的网络状态发生不能够继续协助执行目标模型训练任务的变化。示例性地，网络状态更改信息指示模型训练功能#2的节能模式变为进入节能态，即该模型训练功能#2将被关闭以实现节能。再示例性地，网络状态更改信息指示模型训练功能#2用于模型训练的资源被占用，即模型训练功能#2协助执行目标模型训练任务的算力资源不足。进而模型训练管理实体可以基于网络状态信息更改协助第一模型训练实体执行目标模型训练任务的模型训练实体，比如模型训练管理实体可以选择其它模型训练实体进行协助训练，为了便于理解本申请实施例，以下结合图9对此进行更为详细的描述。

可以理解的是，如果步骤S507中模型训练实体#2周期向模型训练管理实体发送协助训练反馈信息，那么网络状态更改信息可以是网络状态改变后基于周期发送的协助训练反馈信息。

可选地，S508，模型训练实体#2发送模型训练报告信息；

模型训练实体#2完成目标模型训练任务的训练后，可以生成训练完成的模型，进而，该模型训练报告信息可以包括训练完成的模型。

可选地，该训练报告信息还包括训练完成的模型性能信息，比如训练完成的精确度、训练耗费时长等。

在第一种可能的实现方式中，模型训练实体#2独自执行目标模型训练任务，那么模型训练实体#2可以向模型推理实体#1发送模型训练报告信息，其中模型推理实体#1可以是请求执行目标模型训练任务的模型推理实体，比如模型训练实体#1和模型推理实体#1是同一个网络设备部署的实体，或者模型训练实体#1和模型推理实体#1分别部署于不同的NWDAF。更详细的内容可以参见图7的描述，在此不予赘述。

在第二种可能的实现方式中，模型训练实体#2执行的是目标模型训练任务分解而成的目标模型训练子任务，那么模型训练实体#2可以向模型训练实体#1发送模型训练报告信息，进而模型训练实体#1可以根据模型训练报告信息中的训练完成的模型进行模型聚合，更详细的内容可以参见图8的描述，在此不予赘述。

需要说明的是，如果模型训练实体#1和模型推理实体#1部署于不同的NWDAF，模型训练实体#2可以向模型训练实体#1发送模型训练报告信息，也可以向模型推理实体#1发送模型训练报告信息。可选地模型训练报告信息可以是Nnwdaf_MLModelProvision_Notify或Nnwdaf_MLModelInfo_Request response。

基于本技术方案，模型训练管理实体可以对多个模型训练实体的训练任务和算力资源进行管理编排，将模型训练实体#1的训练任务分配给其他资源充足的模型训练实体协助完成训练，减少模型训练实体#1的训练任务的训练等待时间，提高模型训练的效率。

以上对模型训练管理实体对多个模型训练实体的训练任务和算力资源进行管理编排的方法进行了说明，以下结合图6对图5中步骤S501和步骤S502提及的训练状态信息和算力资源信息的获取方式进行说明。

图6是本申请实施例提供的一种获取训练状态信息和算力资源信息的方式的示意性流程图。

S601，模型训练管理实体向模型训练实体#1发送算力资源订阅信息#1；

对应地，模型训练实体#1接收来自模型训练管理实体的算力资源订阅信息#1。

算力资源订阅信息用于订阅模型训练实体#1的算力资源信息#1。有关算力资源信息的内容可以参考图5中步骤S502的介绍，在此不予赘述。

可选地，该算力资源订阅信息#1还指示模型训练实体#1上报算力资源信息#1的周期。示例性地，模型训练管理实体可以根据模型训练实体执行训练任务的平均耗时确定该周期。

S602，模型训练实体#1向模型训练管理实体发送算力资源信息#1；

对应地，模型训练管理实体接收来自模型训练实体#1的该算力资源信息#1。

模型训练实体#1可以响应于算力资源订阅信息#1向模型训练管理实体发送算力资源信息#1。该算力资源信息#1可以包括算力资源订阅信息#1订阅的算力资源信息。

可选地，模型训练实体#1周期向模型训练管理实体发送算力资源信息#1。

S603，模型训练管理实体向模型训练实体#2发送算力资源订阅信息#2；

对应地，模型训练实体#2接收来自模型训练管理实体的算力资源订阅信息#2。

算力资源订阅信息#2用于订阅模型训练实体#2的算力资源信息#2。该步骤与上文步骤S601中的描述类似，在此不予赘述。

可以理解的是，该算力资源订阅信息#1还指示模型训练实体#1上报算力资源信息#1的周期，与算力资源订阅信息#2还指示模型训练实体#2上报算力资源信息#2的周期可以相同也可以不同，比如，每个模型训练实体上报算力资源信息的周期可以基于各自执行训练任务的平均耗时确定，本申请对此不作特别限定。

S604，模型训练实体#2向模型训练管理实体发送算力资源信息#2；

对应地，模型训练管理实体接收来自模型训练实体#2的该算力资源信息#2。

模型训练实体#2可以响应于算力资源订阅信息#2向模型训练管理实体发送算力资源信息#2。该算力资源上报信息#2可以包括算力资源订阅信息#2订阅的算力资源信息#2。

可选地，模型训练实体#2周期向模型训练管理实体发送算力资源信息#2。

S605，模型训练管理实体向模型训练实体#1发送训练状态订阅信息#1；

对应地，模型训练实体#1接收来自模型训练管理实体的训练状态订阅信息#1。

训练状态订阅信息#1用于订阅模型训练实体#1的训练状态信息#1。有关练状态信息的内容可以参考图5中步骤S501的介绍，在此不予赘述。

可选地，训练状态订阅信息#1指示模型训练实体#1周期发送训练状态信息#1。

可选地，训练状态订阅信息#1指示模型训练实体#1基于触发事件发送训练状态信息#1，该触发事件可以包括以下至少一项：模型训练实体#1新增训练任务、模型训练实体#1执行完成某个训练任务。

S606，模型训练实体#1向模型训练管理实体发送训练状态信息#1；

对应地，模型训练管理实体接收来自模型训练实体#1的训练状态信息#1。

模型训练实体#1可以响应于训练状态订阅信息#1向模型训练管理实体发送训练状态信息#1。该训练状态信息#1可以包括训练状态订阅信息#1订阅的训练状态信息#1。

可选地，模型训练实体#1周期向模型训练管理实体发送训练状态信息#1。

可选地，模型训练实体#1基于触发事件向模型训练管理实体发送训练状态信息#1。

S607，模型训练管理实体#1向模型训练实体#2发送训练状态订阅信息#2；

对应地，模型训练实体#2接收来自模型训练管理实体的训练状态订阅信息#2。

训练状态订阅信息#2用于订阅模型训练实体#2的训练状态信息#2。该步骤与上文步骤S605中的描述类似，在此不予赘述。

可以理解的是，该训练状态订阅信息#1还指示模型训练实体#1上报训练状态信息#1的周期，与训练状态订阅信息#2还指示模型训练实体#2上报训练状态信息#2的周期可以相同也可以不同，比如，每个模型训练实体上报训练状态信息的周期可以基于各自执行训练任务的平均耗时确定，本申请对此不作特别限定。

S608，模型训练实体#2向模型训练管理实体发送训练状态上报信息#2；

对应地，模型训练管理实体接收来自模型训练实体#2的训练状态信息#2。

模型训练实体#2可以响应于训练状态订阅信息#2向模型训练管理实体发送训练状态上报信息#2。

可选地，模型训练实体#2周期向模型训练管理实体发送训练状态信息#2。

可选地，模型训练实体#2基于触发事件向模型训练管理实体发送训练状态信息#2。

可以理解的是，为了便于理解本申请实施例，图6仅是以两个模型训练实体进行示例性说明，模型训练管理实体还可以管理三个及三个以上个模型训练实体，模型训练管理是实体可以向每一个模型训练实体发送算力资源订阅信息和训练状态订阅信息，本申请对此不作特别限定。

基于本技术方案，对于网络状态频繁变化的通信系统中，各个模型训练实体可以及时上报自己的算力资源信息和训练状态信息，使得模型训练管理实体可以及时进行编排与管理，提升模型训练的效率。

上文对模型训练管理实体获取训练状态信息和算力资源信息的方式进行了说明，以下结合图7和图8分别对图5中步骤S503提及的方式1和方式2进行说明，其中图7描述方式1，即目标模型训练任务整体训练的一种实现方式，图8描述方式2，即目标模型训练任务分解训练的一种实现方式。

图7是本申请实施例提供的一种目标模型训练任务整体训练的方法的示意性流程图。

需要说明的是，图7所示的步骤可以在图6所示的步骤之后执行，即模型训练实体可以周期或基于触发事件向模型训练管理实体发送训练状态信息，模型训练实体也可以周期向模型训练管理实体发送算力资源信息。

S701，模型推理实体#1向模型训练实体#1发送模型训练请求消息。

模型训练请求消息用于请求模型训练实体#1训练推理模型。

可选地，模型训练请求消息包括以下信息中至少一项：推理模型、推理模型的标识信息、模型性能需求信息、期望训练时长信息。

其中，推理模型是待训练的推理模型，推理模型和推理模型的标识信息都可以用于标记推理模型，比如推理模型可以是指推理模型的模型文件，模型文件中可以包括用于标识推理模型的标识或推理类型。模型性能需求信息可以指示模型训练的需求，比如，期望推理模型训练后的精度可以大于或等于某特定阈值、训练后的准确度可以大于或等于某特定阈值等。期待训练时长信息可以指示期望模型训练占用的训练时长，比如期望训练时长信息可以包括第一时长，指示模型训练实体从接收到模型训练请求消息起在第一时长内完成模型的训练。

需要说明的是，模型推理实体#1和模型训练实体#1可以是部署在一个设备中的两个模块，比如图1所示的模型训练网元121和模型推理网元130，即模型推理实体#1可以默认向所述设备中的模型训练实体#1发送模型训练请求消息，步骤S710的模型训练请求消息是通过内部接口进行传递，从而减少外部接口开销。模型推理实体#1和模型训练实体#1还可以部署于不同的NWDAF，那么模型训练请求消息可以通过NWDAF的接口交互，模型训练请求消息也可以是模型订阅消息或模型请求消息(例如Nnwdaf_MLModelProvision_Subscribe或Nnwdaf_MLModelInfo_Request)，该消息可以包括请求的模型对应的分析标识(Analytics ID)，分析标识指示某种具体的分析类型，例如：切片负载等级相关分析(Analytics ID＝Load level information)、网络功能负载分析(Analytics ID＝NF load information)。

S702，模型训练实体#1确定训练任务。

模型训练实体#1可以基于模型训练请求消息确定训练任务。示例性地，模型训练实体#1可以根据推理模型生成或者索引到推理模型的训练任务，比如模型训练实体#1可以根据模型训练请求消息中的信息生成训练任务，或者说可以根据模型训练请求消息设置训练任务的参数，比如权重等，本申请对此不作特别限定。

可选地，模型训练实体#1可以基于训练任务确定是否请求协作训练。比如模型训练实体#1基于空闲的算力资源是否能够满足训练任务的需求确定是否请求协作训练，再比如，模型训练实体#1基于模型训练任务的优先级确定是否需要进行协作训练，有关该部分的内容可以参考图5中步骤S501的描述，在此不予赘述。

可选地，模型训练实体#1确定请求协作训练的目标模型训练任务。有关该部分的内容可以参考图5中步骤S501的描述，在此不予赘述。

S703，模型训练实体#1向模型训练管理实体发送训练任务更新通知消息。

训练任务更新通知消息指示模型训练实体#1上新增模型训练任务。

可以理解的是，如果模型训练实体#1基于触发事件发送训练状态信息，触发事件为模型训练实体#1上新增模型训练任务，比如步骤S701中模型训练实体#1接收了来自模型推理实体的模型训练请求信息，训练任务更新通知信息可以用于通知模型训练管理实体模型训练实体#1上新增模型训练任务。那么训练任务更新通知消息可以是基于触发事件发送的训练状态信息。

训练任务更新通知消息可以指示模型训练实体#1上的全部训练任务的信息，或者，该训练任务更新消息也可以指示改变的训练任务的信息，其中改变的训练任务可以包括任务进程改变的训练任务、新增的训练任务等。

如果训练任务更新通知消息通知模型训练实体#1上的全部训练任务的信息，可选地，该训练任务更新通知消息指示以下至少一项：模型训练实体#1上的至少一个训练任务、至少一个训练任务中每个训练任务的任务进程、至少一个训练任务中每个训练任务的优先级。

示例性地，训练任务更新通知消息包括三个训练任务1-3，训练任务1正在运行，训练任务2和训练任务3等待运行，训练任务2的优先级高于训练任务3的优先级。进而模型训练管理实体可以结合模型训练实体#1上报的算力资源信息#1确定模型训练实体#1是否能够独立完成三个训练任务的训练，即请求进行协作训练。

如果训练任务更新通知消息通知模型训练实体#1上任务进程改变的训练任务、新增的训练任务的信息等，可选地，该训练任务更新通知消息包括以下至少一项：任务进程改变的训练任务的标识以及任务进程改变的类型、新增的训练任务的标识、新增的训练任务的优先级。从而，传输资源能够得以节省。

示例性地，训练任务更新通知消息通知模型训练实体#1上的训练任务#1已经完成训练，并新增训练任务3，需要说明的是，训练任务更新通知消息没有包括训练任务#2的信息，可以表示训练任务#2的任务进程还未发生改变，比如训练任务#2可以还在训练中，或者还在等待运行等。

S704，模型训练管理实体基于多个算力资源信息在多个模型训练实体中确定模型训练实体#2。

该至少一个模型训练实体#2用于协作执行目标模型训练任务。模型训练管理实体可以从训练任务更新通知消息中获取目标模型训练任务，或者模型训练管理实体可以自己基于训练任务更新通知消息确定目标模型训练任务，有关模型训练管理实体确定模型训练实体#2的内容可以参考图5中步骤S503的描述，在此不予赘述。

S705，模型训练管理实体向模型训练实体#2发送第一训练任务配置信息。

该第一训练任务配置信息指示模型训练实体#2协助模型训练实体#1执行至少一个模型训练任务中的目标模型训练任务。有关第一训练任务配置信息的内容可以参考图5中步骤S504的描述，在此不予赘述。

S706，模型训练管理实体向模型训练实体#1发送训练任务配置通知信息。

该训练任务配置通知信息指示模型训练实体#2协助执行目标模型训练任务。有关训练任务配置通知信息的内容可以参考图5中步骤S505的描述，在此不予赘述。

S707，模型训练实体#1向模型训练实体#2发送目标训练数据指示信息。

目标训练数据指示信息指示用于训练目标模型训练任务的目标训练数据。

可以理解的是，如果模型训练管理实体不具有目标模型训练数据的信息，即没有在步骤S705中的第一训练任务配置信息中携带目标训练数据的信息，那么模型训练实体#1可以基于训练任务配置通知信息获知由模型训练实体#2训练目标模型训练任务，进而向模型训练实体#2发送目标训练数据指示信息。

S708，模型训练实体#2获取目标训练数据。

示例性地，模型训练实体#2基于目标训练数据指示信息下载目标训练数据，比如目标训练数据存储于模型训练实体#1，模型训练实体#2向模型训练实体#1发送下载请求，模型训练实体#1向模型训练实体#2发送目标训练数据。有关获取目标训练数据的内容可以参考图5中步骤S506的描述，在此不予赘述。

S709，模型训练实体#2协助执行目标模型训练任务。

模型训练实体#2可以采用目标训练数据对目标模型训练任务进行训练。有关协助执行目标模型训练任务的内容可以参考图5中步骤S506的描述，在此不予赘述。

S710，模型训练实体#2向模型推理实体#1发送训练报告信息。

模型训练实体#2完成目标模型训练任务的训练后，可以生成训练完成的模型，进而，该训练报告信息可以包括训练完成的模型。

可选地，该训练报告信息还包括训练完成的模型性能信息，比如训练完成的精确度、训练耗费时长等。进而模型推理实体可以从模型训练实体#2直接获取训练完成能够使用的模型。

基于本技术方案，模型训练管理实体可以对多个模型训练实体的训练任务和算力资源进行管理编排，将模型训练实体#1的训练任务分配给其他资源充足的模型训练实体协助完成训练，减少模型训练实体#1的训练任务的训练等待时间，提高系统资源的利用率，以及提升模型训练的效率。

图8是本申请实施例提供的一种目标模型训练任务分解训练的方法的示意性流程图。

需要说明的是，图8所示的步骤可以在图6所示的步骤之后执行，即模型训练实体可以周期或基于触发事件向模型训练管理实体发送训练状态信息，模型训练实体也可以周期向模型训练管理实体发送算力资源信息。

S801，模型推理实体向模型训练实体#1发送模型训练请求消息。

模型训练请求消息用于请求模型训练实体#1训练推理模型。有关该部分的内容可以参考图7中步骤S701的描述，在此不予赘述。

S802，模型训练实体#1确定训练任务。

模型训练实体#1可以基于模型训练请求消息确定训练任务。有关该部分的内容可以参考图7中步骤S702的描述，在此不予赘述。

S803，模型训练实体#1向模型训练管理实体发送训练任务更新通知消息。

训练任务更新通知消息指示模型训练实体#1上新增模型训练任务。有关训练任务更新通知消息的内容可以参考图7中步骤S703的描述，在此不予赘述。

可选地，该模型训练请求消息还可以包括训练数据长度信息。训练数据长度信息指示训练数据的长度，训练数据用于执行训练任务。

示例性地，该训练数据长度信息可以指示模型训练实体#1上的每个训练任务的训练数据的长度，进而模型训练管理实体能够根据每个训练任务对应的训练数据的长度确定进行协作训练的目标模型训练任务，提升确定目标模型训练任务的可靠性。

再示例性地，如果模型训练实体#1确定需要协作训练的目标模型训练任务，即训练任务更新通知消息包括了目标模型训练任务的信息，那么训练数据长度信息可以仅指示目标模型训练任务对应的目标训练数据的长度，能够节省传输资源。

S804，模型训练管理实体分解目标模型训练任务，以及确定模型训练实体#2。

模型训练管理实体可以从训练任务更新通知消息中获取目标模型训练任务，或者模型训练管理实体可以自己基于训练任务更新通知消息确定目标模型训练任务，有关内容可以参考图5中步骤S503的描述，在此不予赘述。

可选地，模型训练管理实体可以通过切分目标模型分解目标模型训练任务，或者，模型训练管理实体也可以通过切分训练数据分解目标模型训练任务。

如果模型训练管理实体通过切分目标模型分解获得目标模型训练任务。模型训练管理实体可以基于多个模型训练实体的算力资源信息确定参与对目标模型训练任务进行训练的M个模型训练实体，并将目标模型切分为M个目标子模型，每个目标子模型可以被模型训练实体单独训练，一个目标子模型的训练为一个模型训练子任务，M为正整数。

示例性地，目标模型为一个4层的神经网络模型，模型训练管理实体可以将该神经网络模型分解为两个目标子模型：前两层神经网络模型作为一个目标子模型，后两层神经网络模型作为另一个目标子模型。

如果模型训练管理实体通过切分训练数据分解获得目标模型训练任务。模型训练管理实体可以基于多个模型训练实体的算力资源信息将目标模型训练任务分解成多个目标模型训练子任务，并确定每个目标模型训练子任务对应的训练数据子长度。

示例性地，模型训练管理实体可以基于多个模型训练实体的算力资源信息确定参与对目标模型训练任务进行训练的N个模型训练实体，并将目标模型训练任务划分为N个目标模型训练子任务，并确定N个目标模型训练子任务中每个目标模型训练子任务的训练数据子长度。N个模型训练实体可以分别执行N个目标模型训练子任务的训练。其中，N为大于或等于1的正整数。

可以理解的是，N个模型训练实体可以包括模型训练实体#1，也可以不包括模型训练实体#1，比如若模型训练实体#1还具有空闲的算力，那么模型训练实体#1可以对其中一个目标模型训练子任务进行训练，若模型训练实体#1不具有空闲的算力，那么模型训练实体#1可以不参与目标模型训练任务的训练，由其它N个模型训练实体#2分别进行训练。

需要说明的是，模型训练管理实体可以设置模型训练实体#1为主模型训练实体，其它模型训练实体为协作模型训练实体。其中，主模型训练实体可以从协作模型训练实体接收协作模型训练实体对目标模型训练子任务进行训练获取的子模型，模型训练实体#1作为主模型训练实体能够提高训练任务分配的可靠性。

示例性地，模型训练管理实体基于算力资源信息确定由模型训练实体#1和模型训练实体#2两个模型训练实体对目标模型训练任务进行协作训练，其中，模型训练实体#1可以作为主模型训练实体，模型训练实体#2作为协作模型训练实体。

可选地，模型训练管理实体确定模型训练实体#2协助执行目标模型任务，并确定用于协助执行目标模型任务的训练数据为目标长度。

可以理解的是，模型训练管理实体可以先确定模型训练实体#2，再分解目标模型训练任务，或者模型训练管理实体也可以先分解目标模型训练任务，再确定模型训练实体#2，或者模型训练管理实体也可以同步分解目标模型训练任务和确定模型训练实体#2，本申请对此不作特别限定。其中，有关模型训练管理实体确定模型训练实体#2的内容可以参考图5中步骤S503的描述，在此不予赘述。

为了便于理解本申请实施例，以下以上述示例对本申请实施例进行说明。其它分配方式，比如两个以上的模型训练实体对执行目标协作训练任务的方式与之类似，以下不予赘述。

S805，模型训练管理实体向模型训练实体#2发送第一训练任务配置信息。

S806，模型训练管理实体向模型训练实体#1发送第二训练任务配置信息。

第二训练任务配置信息指示由模型训练实体#2协助模型训练实体#1执行目标模型训练任务。

可选地，第二训练任务配置信息指示目标模型训练任务的标识、模型训练实体#2的标识。进而模型训练实体#1可以获知由模型训练实体#2执行目标模型训练任务。

可选地，如果模型训练管理实体通过切分目标模型分解模型训练任务，那么第二训练任务配置信息还指示切分方式信息，比如切分节点标识，切分节点信息用于指示目标模型的切分方式，进而模型训练功能#1可以根据切分方式信息获知目标模型被切分的目标子模型。

可选地，如果模型训练管理实体通过切分训练数据分解模型训练任务，那么第二训练任务配置信息还指示模型训练实体#2协助执行目标模型训练任务使用的训练数据的目标长度。进而模型训练实体#1可以获指示模型训练实体#2目标长度的训练数据。

S807，模型训练实体#1初步执行目标模型训练任务。

模型训练实体#1确定模型结构、训练算法、训练超参数等，利用模型训练实体#1处目标长度的训练数据进行若干轮初始模型训练，得到初始模型。

S808，模型训练实体#1向模型训练实体#2发送目标训练数据指示信息。

目标训练数据指示信息指示用于训练目标模型训练任务的目标训练数据。目标训练数据指示信息用于指示模型训练实体#2采用目标长度的训练数据协助执行目标模型训练任务。

可选地，如果模型训练管理实体通过切分目标模型分解模型训练任务，那么目标训练数据指示信息指示目标协作训练任务的标识、训练数据的地址和模型训练实体#2执行训练子任务对应的目标子模型的地址。进而模型训练实体#2可以基于目标子模型的地址获取目标子模型，基于训练数据的地址获取目标长度的训练数据。

可选地，如果模型训练管理实体通过切分训练数据分解模型训练任务，那么该目标训练数据指示信息指示目标协作训练任务的标识、目标长度、训练数据的地址、初始模型的地址。进而模型训练实体#2可以基于初始模型的地址获取初始模型，基于训练数据的地址获取目标长度的训练数据。

S809，模型训练实体#2获取目标训练数据。

模型训练实体#2可以基于目标训练数据指示信息获取目标长度的训练数据。有关获取目标训练数据的内容可以参考图7中步骤S708的描述，在此不予赘述。

S810，模型训练实体#2协助执行目标模型训练任务。

模型训练实体#2采用目标长度的训练数据对初始模型进行若干轮训练，以生成子模型。或者，模型训练实体#2采用训练数据对目标子模型进行若干轮训练，以生成训练后的目标子模型。

S811，模型训练实体#2向模型训练实体#1发送模型传递信息。

该模型传递信息指示经过训练的子模型，即采用目标长度训练数据进行若干轮训练后的初始模型，或者对目标子模型进行若干轮训练后的子模型。

可选地，该模型传递信息指示子模型的模型梯度或者子模型的模型地址。

可选地，如果模型训练管理功能是通过切分目标模型分解目标模型训练任务的，那么模型传递信息还指示目标子模型的标识，目标子模型的标识可以是基于模型训练管理功能切分时的切分方式信息确定的，或者也可以是模型训练功能#1或模型训练功能#2约定的，本申请对此不作特别限定。

S812，模型训练实体#1执行模型聚合。

可以理解的是，针对不同的模型训练任务的分解方式，模型训练实体#1可以采取不同的方式执行模型聚合，比如当模型训练管理功能是通过切分目标模型分解目标模型训练任务的，那么模型训练实体#1从模型训练实体#2获取的是经过训练的目标子模型，模型训练实体可以对目标子模型进行聚合。或者针对模型训练管理功能是通过切分训练数据分解模型目标模型训练任务的，那么模型训练实体可以基于模型传递信息获取经过模型训练功能#2训练的初始模型，并与初始执行训练获得的初始模型执行模型聚合，以获得训练完成的推理模型。例如，模型训练实体可以将多个子模型和初始模型的每个梯度/权重进行平均得到最终聚合后的模型梯度/权重。

S813，模型训练实体#1向模型推理实体#1发送训练报告信息。

训练报告信息可以包括训练完成的推理模型。有关训练报告信息的内容可以参考图7中步骤S710的描述，在此不予赘述。

基于本技术方案，模型训练管理实体可以对目标模型训练任务进行分解，利用多个模型训练实体协作完成训练任务，可以减轻目标模型训练任务的原训练主体模型训练实体#1的训练任务负担，充分利用多个模型训练实体的资源，减少模型训练实体#1的训练等待时间。

以上分别对模型训练功能#2完成目标模型训练任务的方式进行说明，在一种可能的实现方式中，模型训练功能#2可以在执行目标模型训练任务的过程中，向模型训练管理实体发送图5中S507所述的协助训练反馈信息和/或网络状态更改信息，以使得模型训练管理实体能够获知执行目标模型训练任务的情况，并能够及时作出调整，提升模型训练的可靠性，以下结合图9对此进行说明。

图9是本申请实施例提供的一种执行目标模型训练任务的过程中进行反馈的方法的示意性流程图。

首先需要说明的是，为了便于理解本申请实施例，在图9所述的示例中，以模型训练管理实体管理三个模型训练实体进行举例，模型训练管理实体可以是图1至图3所述的任意的模型训练管理实体，模型训练实体#1、模型训练实体#2和模型训练实体#3可以是图1至图3所述的任意的模型训练实体，本申请对此不作特别限定。并且，图9所述的方法可以与图5至图8中任意描述的方法进行结合。

S901，模型训练实体#2向模型训练管理实体发送协助训练反馈信息和/或网络状态更改信息。

该协助反馈信息可以指示以下至少一项：模型训练实体#2执行目标模型训练任务达到的精度、目标模型训练实体#2执行目标模型训练任务耗费的时长、目标模型训练实体#2执行目标模型训练任务的执行进度、目标模型训练实体执行目标模型训练任务占用的资源数量。

该网络状态信息指示模型训练实体#2的网络状态发生不能够继续协助执行目标模型训练任务的变化，或者说不能够完成目标模型训练任务的变化。示例性地，网络状态更改信息指示模型训练功能#2的节能模式变为进入节能态，即该模型训练功能#2将被关闭以实现节能。再示例性地，网络状态更改信息指示模型训练功能#2用于模型训练的资源被占用，即模型训练功能#2协助执行目标模型训练任务的算力资源不足。

可以理解的是，模型训练实体#2可以仅向模型训练管理实体发送协助训练反馈信息，模型训练管理实体可以基于协助训练反馈信息中的内容确定是否需要更换其它模型训练实体协助执行目标模型训练任务。模型训练实体#2也可以仅向模型训练管理实体发送网络状态更改信息，进而模型训练管理实体可以直接基于网络状态更改信息确定更换其它模型训练实体协助执行目标模型训练任务。模型训练实体#2也可以向模型训练管理实体发送协助训练反馈信息和网络状态更改信息，本申请对此不作特别限定。

S902，模型训练管理实体调整分配方式。

其中调整分配方式可以包括：调整模型训练节点协助执行目标模型训练任务的方式(比如更改目标长度)，以及更换模型训练实体(比如将模型训练实体#2更换为模型训练实体#3)。即模型训练实体#3用于协助执行目标模型训练任务。即模型训练实体#3可以是模型训练管理实体在多个模型训练实体中的第二目标模型训练实体的一种示例。

示例性地，如果协助训练反馈信息指示模型训练实体#2协助执行目标模型训练任务的训练过程异常，比如训练耗时大于或等于某特定阈值、模型精度低于或等于某特定阈值、训练进度指示的完成百分比低于或等于某特定阈值等，那么模型训练管理实体可以调整分配方式。

示例性地，如果网络状态更改信息指示模型训练实体#2的节能模式变为进入节能态，即该模型训练实体#2将被关闭以实现节能，那么模型训练管理实体可以调整目标协作训练任务的分配方式。如果网络状态更改信息指示模型训练实体#2用于模型训练的资源被占用，即模型训练实体#2训练模型的实体被关闭，那么模型训练管理实体也可以调整分配方式。

S903，模型训练管理实体向模型训练实体#1发送配置更改信息#1。

配置更改信息#1指示调整后的分配方式，比如指示更改后的目标长度，再比如指示由模型训练实体#2协助执行目标模型训练任务更改为由模型训练实体#3协助执行目标模型训练任务。

S904，模型训练管理实体向模型训练实体#2发送配置更改信息#2。

配置更改信息#2指示模型训练实体#2采用调整后的方式协助执行目标模型训练任务，或者指示模型训练实体#2停止协助执行目标模型训练任务。

可选地，如果模型训练管理实体调整的方式为更换协助训练的模型训练实体，比如将模型训练实体#2更换为模型训练实体#3，那么该方法还包括步骤S905：

可选地，S905，模型训练管理实体向模型训练实体#3发送第三训练任务配置信息。

该第三训练任务配置信息指示模型训练实体#3协助模型训练实体#1执行目标模型训练任务。该第三训练任务配置信息的内容与图5中步骤S504中第一训练任务配置信息的描述类似，在此不予赘述。

可以理解的是，模型训练实体#3可以基于第三训练任务配置信息协助执行目标模型训练任务，即模型训练实体#3可以执行如图5中步骤S506至S508、或者S707至S710、或者S809至S813的内容，在此不予赘述。

以上图5至图9的方法均可以运用于图1至图3所述的架构中，可以理解的是，为了便于理解本申请实施例，在上述的描述过程中以一个模型训练管理实体进行说明。如果系统中存在多个模型训练管理实体，比如参见图3，分别在EMS和NMS中各存在一个模型训练管理实体，那么图5至图9中的模型训练管理实体可以视为EMS中的模型训练管理实体，并且EMS中的模型训练管理实体可以与NMS中的模型训练管理实体进行交互，以实现共同管理多个模型训练实体。为了便于理解，以下结合图10对该实现方式进行说明。

图10是本申请实施例提供的一种两个模型训练管理实体进行模型训练管理的一种实现方式的示意性流程图。

需要说明的是，图10以模型训练管理实体#1为NMS中的模型训练管理实体，模型训练管理实体#2为EMS中的模型训练管理实体进行举例。

S1001，模型训练管理实体#1向模型训练管理实体#2发送总算力资源订阅信息。

总算力资源订阅信息指示模型训练管理实体#2订阅多个模型训练管理实体的算力资源信息。其中，多个模型训练管理实体为模型训练管理实体#2管理的模型训练实体。有关算力资源信息的内容可以参见图5中步骤S502的描述，在此不予赘述。

S1002，算力资源信息订阅与上报。

模型训练管理实体#2、模型训练实体#1、模型训练实体#2可以执行如图6所述的步骤S601至步骤S604的内容，在此不予赘述。

S1003，模型训练管理实体#2向模型训练管理实体#1发送总算力资源信息。

模型训练管理实体#2可以将从模型训练实体#1和模型训练实体#2处接收的算力资源信息#1和算力资源信息#2直接发送给模型训练管理实体#1，或者模型训练管理实体#2也可以对算力资源信息#1和算力资源信息#2进行处理后向模型训练管理实体#1发送，本申请对此不作特别限定。

S1004，模型训练管理实体#2向模型训练管理实体#1发送总训练状态订阅信息。

总训练状态订阅信息指示模型训练管理实体#2订阅多个模型训练管理实体的训练状态信息。有关训练状态信息的内容可以参见图5中步骤S501的描述，在此不予赘述。

S1005，训练状态信息订阅与上报。

模型训练管理实体#2、模型训练实体#1、模型训练实体#2可以执行如图6所述的步骤S605至步骤S608的内容，在此不予赘述。

S1006，模型训练管理实体#2向模型训练管理实体#1发送总训练状态信息。

模型训练管理实体#2可以将从模型训练实体#1和模型训练实体#2处接收的训练状态信息#1和训练状态信息#2直接发送给模型训练管理实体#1，或者模型训练管理实体#2也可以对训练状态信息#1和训练状态信息#2进行处理后向模型训练管理实体#1发送，本申请对此不作特别限定。

S1007，模型训练管理实体#1向模型训练管理实体#2发送策略信息。

策略信息指示基于多个算力资源信息在多个模型训练实体确定用于协助执行目标模型训练任务的目标模型训练实体(即本申请实施例中的模型训练实体#2)的方式，和/或，指示用于完成目标模型训练任务的训练数据的总长度确定用于目标模型训练任务的训练数据的目标长度的方式。

可选地，如果是模型训练管理实体确定是否需要协作训练，那么策略信息还指示确定是否需要协作训练的方式。

示例性地，确定是否需要协作训练的方式包括以下至少一项：

基于优先级分配的方式：基于训练任务的优先级确定是否需要协作训练。当训练任务优先级大于或等于优先级阈值时，确定需要协作训练，当训练任务优先级小于优先级阈值时，确定不需要协作训练；

基于算力资源利用率分配的方式：基于算力资源利用率确定是否需要协作训练。当模型训练实体的算力资源利用率大于或等于利用率阈值时，确定该模型训练实体需要协作训练，当模型训练实体的算力资源利用率小于利用率阈值时，确定该模型训练实体不需要协作训练；

基于训练数据量分配的方式：基于训练任务需要训练数据量确定是否需要协作训练。当训练任务的训练数据量大于数据量阈值时，确定需要协作训练，当训练任务的训练数据量小于或等于数据量阈值时，确定不需要协作训练。

示例性地，确定目标模型训练实体的方式包括以下至少一项：

基于算力资源的方式：基于空闲的算力资源确定目标模型训练实体。例如，选择空闲算力资源最多的模型训练实体作为目标模型训练实体；

基于节点位置的方式：基于模型训练实体与主模型训练实体(例如本申请实施例中的模型训练实体#1)确定目标模型训练实体。例如，选择与主模型训练实体最邻近的模型训练实体为目标模型训练实体。

示例性地，确定训练数据的目标长度的方式包括以下至少一项：

基于算力资源的方式：基于空闲的算力资源确定目标长度。例如，确定目标长度为模型训练实体空闲的算力资源能够处理的目标长度；

基于模型训练实体的个数的方式：基于具有空闲算力资源的模型训练实体的个数确定目标长度。例如，模型训练管理实体选定3个模型训练实体协助执行目标模型训练任务，那么可以将目标模型训练任务的训练数据分解为3个目标长度的训练数据。

可以理解的是，策略信息可以包括具体的方式，或者也可以包括方式的索引，比如方式的名称或标识，或者还可以包括方式的参数，比如优先级阈值、数据量阈值等，本申请对此不作特别限定。

S1008，训练任务确定。

模型训练实体#1、模型训练管理实体#2可以执行图5中步骤S503、或者图7中步骤S701至步骤S703、或者图8中步骤S801至S803中的内容，在此不予赘述。

S1009，模型训练管理实体#2向模型训练管理实体#1发送训练任务通知更新信息。

该训练任务通知更新信息可以是模型训练管理实体#1从模型训练实体#1处获取的训练任务更新通知信息，用于指示模型训练实体#1上新增模型训练任务。相关内容可以参考图7中步骤S703或者图8中步骤S803的描述，在此不予赘述。

可以理解的是，模型训练管理实体#2可以将从模型训练实体#1处获取的训练任务更新通知信息直接发送给模型训练管理实体#2，或者也可以对训练任务更新通知信息进行处理后发送给模型训练管理实体#2，本申请对此不作特别限定。

S1010，分配方式确定，协作训练执行。

模型训练管理实体#2、模型训练实体#1、和模型训练实体#2可以执行图5中步骤S504至S508、或者图7中步骤S704至S710、或者图8中步骤S804至S813的内容，可选地还可以执行图9的全部内容，在此不予赘述。

可以理解的是，模型训练管理实体#2可以基于从模型训练管理实体#1获取的策略信息确定分配方式。

S1011，模型训练管理实体#2向模型训练管理实体#1发送训练任务信息。

该训练任务信息可以是模型训练管理实体#2向模型训练功能#1发送的训练任务信息，相关内容可以参考图5中步骤S505描述，在此不予赘述。

可以理解的是，模型训练管理实体#2可以直接将发送给模型训练实体#1的训练任务信息发送给模型训练管理实体#2，或者也可以对训练任务信息进行处理后发送给模型训练管理实体#2，本申请对此不作特别限定。

基于本技术方案，NMS中的模型训练管理功能可以向EMS中的模型训练管理功能发送策略信息，提高模型训练的效率。

应理解，在上文实施例的描述过程中，一条信息可以承载在一条或多条消息或同一条消息中的一个或多个信元中，比如两条消息，或，同一条消息中的两个信元，本申请对此不作特别限定。

以上描述了本申请实施例的方法实施例，下面对相应的装置实施例进行介绍。应理解，装置实施例的描述与方法实施例的描述相互对应，因此，未详细描述的部分可以参见前面方法实施例。

图11为本申请实施例提供的一种通信装置的示意图。如图11所示，该装置1100可以包括收发模块1110和处理模块1120。收发模块1110可以与该装置的外部进行通信，处理模块1120用于进行数据处理。收发模块1110还可以称为通信接口或收发模块。

在一种可能的设计中，该装置1100可实现对应于上文图5至图10所示方法实施例中的模型训练管理功能执行的流程，其中，处理模块1120用于执行上文图5至图10所示方法实施例中模型训练管理功能的处理相关的操作，收发模块1110用于执行上文图5至图10所示方法实施例中模型训练管理功能的收发相关的操作。

示例性地，收发模块1110用于接收第一模型训练实体的训练状态信息，训练状态信息指示第一模型训练实体具有的至少一个模型训练任务；收发模块1110还用于获取多个算力资源信息，多个算力资源信息分别指示多个模型训练实体具有的用于模型训练的空闲算力资源；处理模块1120用于基于多个算力资源信息在多个模型训练实体中确定第一目标模型训练实体；收发模块1110还用于向第一目标模型训练实体发送第一训练任务配置信息，第一训练任务配置信息指示协助第一模型训练实体执行至少一个模型训练任务中的目标模型训练任务。

在又一种可能的设计中，该装置1100可实现对应于上文图5至图10所示方法实施例中的第一模型管理功能(即模型管理功能#1)执行的流程，其中，收发模块1110用于执行上文图5至图10所示方法实施例中模型管理功能#1的收发相关的操作，处理模块1120用于执行上文图5至图10所示方法实施例中模型管理功能#1的处理相关的操作。

示例性地，处理模块1120用于生成训练状态信息；收发模块1110用于向模型训练管理实体发送训练状态信息，训练状态信息指示模型训练实体具有的至少一个模型训练任务；收发模块还用于向模型训练管理实体发送算力资源信息，算力资源信息指示模型训练实体具有的用于模型训练的空闲算力资源；收发模块1110还用于接收来自模型训练管理实体的训练任务信息，训练任务信息指示协助执行至少一个模型训练任务中的目标模型训练任务的第一目标模型训练实体。

在又一种可能的设计中，该装置1100可实现对应于上文图5至图10所示方法实施例中的第一目标模型管理功能(即模型管理功能#2)执行的流程，其中，收发模块1110用于执行上文图5至图10所示方法实施例中模型管理功能#2的收发相关的操作，处理模块1120用于执行上文图5至图10所示方法实施例中模型管理功能#2的处理相关的操作。

示例性地，收发模块1110用于向模型训练管理实体发送算力资源信息，算力资源信息指示模型训练实体具有的用于模型训练的空闲算力资源；收发模块1110还用于接收来自模型训练管理实体的第一训练任务配置信息，第一训练任务配置信息指示协助第一模型训练实体执行目标模型训练任务；处理模块1120用于协助第一模型训练管理实体执行目标模型训练任务。

应理解，这里的装置1100以功能单元的形式体现。这里的术语“单元”可以指应用特有集成电路(application specific integrated circuit，ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。在一个可选例子中，本领域技术人员可以理解，装置1100可以具体为上述实施例中的模型训练管理功能或应用于模型训练管理功能的芯片，可以用于执行上述方法实施例中与模型训练管理功能对应的流程，或者，装置1100可以具体为上述实施例中的模型训练功能或应用于模型训练功能的芯片，可以用于执行上述方法实施例中与模型训练功能对应的流程，为避免重复，在此不予赘述。

上述装置1100具有实现上述方法中模型训练管理功能所执行的相应步骤的功能，或者，上述装置1100具有实现上述方法中模型训练功能所执行的相应步骤的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块；例如收发模块可以由收发机替代(例如，收发模块中的发送单元可以由发送机替代，收发模块中的接收单元可以由接收机替代)，其它单元，如处理模块等可以由处理器替代，分别执行各个方法实施例中的收发操作以及相关的处理操作。

此外，上述收发模块还可以是收发电路(例如可以包括接收电路和发送电路)，处理模块可以是处理电路。在本申请的实施例，图11中的装置可以是前述实施例中的模型训练管理功能或模型训练功能，也可以是芯片或者芯片系统，例如：片上系统(system on chip，SoC)。其中，收发模块可以是输入输出电路、通信接口。处理模块为该芯片上集成的处理器或者微处理器或者集成电路。在此不做限定。

图12示出了本申请实施例提供的通信装置1200。该装置1200包括处理器1210和存储器1220。存储器1220用于存储指令，该处理器1210可以调用该存储器1220中存储的指令，以执行上述方法实施例中的模型训练管理功能或模型训练功能对应的流程。

具体地，在一种可能的实现方式中，存储器1220用于存储指令，该处理器1210可以调用该存储器1220中存储的指令，以执行上述方法实施例中的模型训练管理功能对应的流程。

具体地，在另一种可能的实现方式中，存储器1220用于存储指令，该处理器1210可以调用该存储器1220中存储的指令，以执行上述方法实施例中的模型训练功能对应的流程。

应理解，装置1200可以具体为上述实施例中的模型训练管理功能或模型训练功能，也可以是用于模型训练管理功能或模型训练功能的芯片或者芯片系统。具体地，该装置1200可以用于执行上述方法实施例中与模型训练管理功能或模型训练功能对应的流程。

可选地，该存储器1220可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类型的信息。该处理器1210可以用于执行存储器中存储的指令，并且当该处理器1210执行存储器中存储的指令时，该处理器1210用于执行上述与模型训练管理功能或模型训练功能对应的方法实施例的流程。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

应注意，本申请实施例中的处理器可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。本申请实施例中的处理器可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

图13示出了本申请实施例提供的通信装置1300。该装置1300包括处理电路1310和收发电路1320。其中，处理电路1310和收发电路1320通过内部连接通路互相通信，该处理电路1310用于执行指令，以控制该收发电路1320发送信号和/或接收信号。

可选地，该装置1300还可以包括存储介质1330，该存储介质1330与处理电路1310、收发电路1320通过内部连接通路互相通信。该存储介质1330用于存储指令，该处理电路1310可以执行该存储介质1330中存储的指令。

在一种可能的实现方式中，装置1300用于实现上述方法实施例中的模型训练管理实体对应的流程。

当通信装置1300用于实现图5至图10所示的方法时，处理电路1310用于实现上述处理单元1120 的功能，收发电路1320用于实现上述收发单元1110或者收发单元1110和处理单元1120的功能。

在另一种可能的实现方式中，装置1300用于实现上述方法实施例中的模型训练实体对应的流程。

当通信装置1300用于实现图5至图10所示的方法时，处理电路1310用于实现上述处理单元1120的功能，收发电路1320用于实现上述收发单元1110或者收发单元1110和处理单元1120的功能。

根据本申请实施例提供的方法，本申请还提供一种计算机程序产品，该计算机程序产品包括：计算机程序代码，当该计算机程序代码在计算机上运行时，使得该计算机执行图5至图10所示实施例中的方法。

根据本申请实施例提供的方法，本申请还提供一种计算机可读介质，该计算机可读介质存储有程序代码，当该程序代码在计算机上运行时，使得该计算机执行图5至图10所示实施例中的方法。

根据本申请实施例提供的方法，本申请还提供一种系统，其包括前述的模型训练管理功能和多个模型训练功能。

本文中术语“……中的至少一个”或“……中的至少一种”，表示所列出的各项的全部或任意组合，例如，“A、B和C中的至少一种”，可以表示：单独存在A，单独存在B，单独存在C，同时存在A和B，同时存在B和C，同时存在A、B和C这六种情况。本文中的“至少一个”表示一个或者多个。“多个”表示两个或者两个以上。

应理解，在本申请各实施例中，“与A相应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

还应理解，在本申请的各种实施例中，第一、第二以及各种数字编号仅为描述方便进行的区分，并不用来限制本申请实施例的范围。例如，区分不同的信息等。

还应理解，在本申请的各种实施例中，“指示”可以包括直接指示和间接指示，也可以包括显式指示和隐式指示。将某一信息(例如上文所述的第一信息)所指示的信息称为待指示信息，则具体实现过程中，对待指示信息进行指示的方式有很多种，例如但不限于，可以直接指示待指示信息，如待指示信息本身或者该待指示信息的索引等。也可以通过指示其他信息来间接指示待指示信息，其中该其他信息与待指示信息之间存在关联关系。还可以仅仅指示待指示信息的一部分，而待指示信息的其他部分则是已知的或者提前约定的。例如，还可以借助预先约定(例如协议规定)的各个信息的排列顺序来实现对特定信息的指示，从而在一定程度上降低指示开销。

还应理解，在本申请的各种实施例中，“预先配置”可以通过在设备(例如，第一终端设备)中预先保存相应的代码、表格或其他可用于指示相关信息的方式来实现，本申请对于其具体的实现方式不做限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不予赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种模型训练管理的方法，其特征在于，所述方法包括：

模型训练管理实体接收第一模型训练实体的训练状态信息，所述训练状态信息指示所述第一模型训练实体具有的至少一个模型训练任务；

所述模型训练管理实体获取多个算力资源信息，所述多个算力资源信息分别指示多个模型训练实体具有的用于模型训练的空闲算力资源；

所述模型训练管理实体基于所述多个算力资源信息在所述多个模型训练实体中确定第一目标模型训练实体；

所述模型训练管理实体向所述第一目标模型训练实体发送第一训练任务配置信息，所述第一训练任务配置信息指示协助所述第一模型训练实体执行所述至少一个模型训练任务中的目标模型训练任务。
如权利要求1所述的方法，其特征在于，所述模型训练管理实体获取所述多个算力资源信息，包括：

所述模型训练管理实体分别周期接收来自所述多个模型训练实体的所述多个算力资源信息。
如权利要求1所述的方法，其特征在于，所述模型训练管理实体获取所述多个算力资源信息，包括：

所述模型训练管理实体分别向所述多个模型训练实体发送多个算力资源查询信息；

所述模型训练管理实体分别接收来自所述多个模型训练实体的所述多个算力资源信息。
如权利要求1至3中任一项所述的方法，其特征在于，模型训练管理实体接收第一模型训练实体的训练状态信息，包括：

所述模型训练管理实体周期接收来自所述第一模型训练实体的训练状态信息。
如权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

所述模型训练管理实体向所述第一模型训练实体发送训练任务配置通知信息，所述训练任务配置通知信息指示所述第一目标模型训练实体协助执行所述目标模型训练任务。
如权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

所述模型训练管理实体确定用于所述第一目标模型训练实体协助执行所述目标模型训练任务的训练数据的目标长度；

所述模型训练管理实体向所述第一模型训练实体发送第二训练任务配置信息，所述第二训练任务配置信息指示所述第一目标模型训练实体采用所述目标长度的训练数据协助执行所述目标模型训练任务。
如权利要求6所述的方法，其特征在于，所述训练状态信息还指示用于完成所述目标模型训练任务的训练数据的总长度，所述模型训练管理实体确定所述目标长度，包括：

所述模型训练管理实体基于所述总长度和所述第一目标模型训练实体的算力资源信息确定所述目标长度。
如权利要求1至7中任一项所述的方法，其特征在于，所述方法还包括：

所述模型训练管理实体接收来自所述第一目标模型训练实体的协助训练反馈信息，所述协助训练反馈信息指示以下至少一项：

所述第一目标模型训练实体执行所述目标模型训练任务达到的精度、

所述第一目标模型训练实体执行所述目标模型训练任务耗费的时长、

所述第一目标模型训练实体执行所述目标模型训练任务的执行进度、

所述第一目标模型训练实体执行所述目标模型训练任务占用的资源数量。
如权利要求1至8中任一项所述的方法，其特征在于，所述方法还包括：

所述模型训练管理实体接收来自所述第一目标模型训练实体的网络状态更改信息；

所述模型训练管理实体基于所述网络状态更改信息和所述多个算力资源信息确定将所述第一目标模型训练实体更换为所述多个模型训练实体中的第二目标模型训练实体；

所述模型训练管理实体向所述第二目标模型训练实体发送第三训练任务配置信息，所述第三训练任务配置信息指示协助所述第一模型训练实体执行所述目标模型训练任务。
如权利要求1至9中任一项所述的方法，其特征在于，所述方法还包括：

所述模型训练管理实体获取策略信息，所述策略信息指示基于所述多个算力资源信息在所述多个模型训练实体确定所述第一目标模型实体的方式，和/或，指示基于用于完成所述目标模型训练任务的训练数据的总长度确定用于所述第一目标模型实体协助执行所述目标模型训练任务的训练数据的目标长度的方式。
一种模型训练管理的方法，其特征在于，所述方法包括：

模型训练实体向模型训练管理实体发送训练状态信息，所述训练状态信息指示所述模型训练实体具有的至少一个模型训练任务；

所述模型训练实体向所述模型训练管理实体发送算力资源信息，所述算力资源信息指示所述模型训练实体具有的用于模型训练的空闲算力资源；

所述模型训练实体接收来自所述模型训练管理实体的训练任务信息，所述训练任务信息指示协助执行所述至少一个模型训练任务中的目标模型训练任务的第一目标模型训练实体。
如权利要求11所述的方法，其特征在于，所述模型训练实体向所述模型训练管理实体发送所述算力资源信息，包括：

所述模型训练实体向所述模型训练管理实体周期发送所述算力资源信息；或者，

所述模型训练实体接收来自所述模型训练管理实体的算力资源查询信息；所述模型训练实体向所述模型训练管理实体发送所述算力资源信息。
如权利要求11或12所述的方法，其特征在于，所述模型训练实体向所述模型训练管理实体发送所述训练状态信息，包括：

所述模型训练实体向所述模型训练管理实体周期发送所述训练状态信息；或者，

所述模型训练实体基于触发事件向所述模型训练管理实体发送所述训练状态信息。
如权利要求11至13中任一项所述的方法，其特征在于，所述训练任务信息还指示所述第一目标模型训练实体采用目标长度的训练数据协助执行所述目标模型训练任务。
如权利要求11至14中任一项所述的方法，其特征在于，所述方法还包括：

所述模型训练实体接收来自所述目标模型训练实体的模型训练报告信息，所述模型训练报告信息指示完成所述目标模型训练任务获得的子模型；

所述模型训练实体基于所述子模型执行模型聚合。
一种模型训练管理的方法，其特征在于，所述方法包括：

模型训练实体向模型训练管理实体发送算力资源信息，所述算力资源信息指示所述模型训练实体具有的用于模型训练的空闲算力资源；

所述模型训练管理实体接收来自所述模型训练管理实体的第一训练任务配置信息，所述第一训练任务配置信息指示协助第一模型训练实体执行目标模型训练任务；

所述模型训练管理实体协助所述第一模型训练管理实体执行所述目标模型训练任务。
如权利要求16所述的方法，其特征在于，所述模型训练实体向所述模型训练管理实体发送所述算力资源信息，包括：

所述模型训练实体向所述模型训练管理实体周期发送所述算力资源信息；或者，

所述模型训练实体接收来自所述模型训练管理实体的算力资源查询信息；所述模型训练实体向所述模型训练管理实体发送所述算力资源信息。
如权利要求16或17所述的方法，其特征在于，所述模型训练管理实体协助所述第一模型训练管理实体执行所述目标模型训练任务，包括：

所述模型训练实体获取目标训练数据；

所述模型训练实体采用目标训练数据协助所述第一模型训练管理实体执行所述目标模型训练任务。
如权利要求16至18中任一项所述的方法，其特征在于，所述方法还包括：

所述模型训练实体向所述第一模型训练实体发送模型训练报告信息，所述模型训练报告信息指示完成所述目标模型训练任务获得的子模型。
如权利要求16至19中任一项所述的方法，其特征在于，所述方法还包括：

所述模型训练实体向所述模型训练管理实体发送协助训练反馈信息，所述协助训练反馈信息指示以下至少一项：

所述模型训练实体执行所述目标模型训练任务达到的精度、

所述模型训练实体执行所述目标模型训练任务耗费的时长、

所述模型训练实体执行所述目标模型训练任务的执行进度、

所述模型训练实体执行所述目标模型训练任务占用的资源数量。
如权利要求16至20中任一项所述的方法，其特征在于，所述方法还包括：

所述模型训练实体向所述模型训练管理实体发送网络状态更改信息，所述网络状态更改信息指示所述模型训练实体不能够完成目标模型训练任务。
一种模型训练管理的方法，其特征在于，所述方法包括：

第一模型训练实体向模型训练管理实体发送训练状态信息，所述训练状态信息指示所述第一模型训练实体具有的至少一个模型训练任务；

所述模型训练管理实体接收所述第一模型训练实体的所述训练状态信息；

所述模型训练管理实体获取多个算力资源信息，所述多个算力资源信息分别指示多个模型训练实体具有的用于模型训练的空闲算力资源；

所述模型训练管理实体基于所述多个算力资源信息在所述多个模型训练实体中确定第一目标模型训练实体；

所述模型训练管理实体向所述第一目标模型训练实体发送第一训练任务配置信息，所述第一训练任务配置信息指示协助所述第一模型训练实体执行目标模型训练任务；

所述第一目标模型训练管理实体接收来自所述模型训练管理实体的所述第一训练任务配置信息；

所述第一目标模型训练管理实体协助所述第一模型训练管理实体执行所述目标模型训练任务。
如权利要求22所述的方法，其特征在于，所述模型训练管理实体获取多个算力资源信息，包括：

所述模型训练管理实体分别周期接收来自所述多个模型训练实体的所述多个算力资源信息；

所述多个模型训练实体向所述模型训练管理实体周期发送所述算力资源信息。
如权利要求22所述的方法，其特征在于，所述模型训练管理实体获取所述多个算力资源信息，包括：

所述模型训练管理实体分别向所述多个模型训练实体发送多个算力资源查询信息；

所述多个模型训练实体分别接收来自所述模型训练管理实体的所述多个算力资源查询信息；

所述模型训练管理实体分别接收来自所述多个模型训练实体的所述多个算力资源信息；

所述多个模型训练实体分别向所述模型训练管理实体发送所述多个算力资源信息。
如权利要求22至24中任一项所述的方法，其特征在于，所述第一模型训练实体向所述模型训练管理实体发送第一模型训练实体的训练状态信息，模型训练管理实体接收第一模型训练实体的训练状态信息，包括：

所述模型训练管理实体周期接收来自所述第一模型训练实体的训练状态信息；所述第一模型训练实体向所述模型训练管理实体周期发送所述第一模型训练实体的训练状态信息；或者，

所述第一模型训练实体基于触发事件向所述模型训练管理实体发送所述训练状态信息；所述模型训练管理实体接收来自所述第一模型训练实体的所述训练状态信息。
如权利要求22至25中任一项所述的方法，其特征在于，所述方法还包括：

所述模型训练管理实体向所述第一模型训练实体发送训练任务配置通知信息，所述训练任务配置通知信息指示所述第一目标模型训练实体协助执行所述目标模型训练任务；

所述第一模型训练实体接收来自所述模型训练管理实体的所述训练任务配置通知信息。
如权利要求22至25中任一项所述的方法，其特征在于，所述方法还包括：

所述模型训练管理实体确定用于所述第一目标模型训练实体协助执行所述目标模型训练任务的训练数据的目标长度；

所述模型训练管理实体向所述第一模型训练实体发送第二训练任务配置信息，所述第二训练任务配置信息指示所述第一目标模型训练实体采用所述目标长度的训练数据协助执行所述目标模型训练任务；

所述第一模型训练实体接收来自所述模型训练管理实体的所述第二训练任务配置信息。
如权利要求27所述的方法，其特征在于，所述模型训练管理实体确定所述目标长度，包括：

所述模型训练管理实体基于所述总长度和所述第一目标模型训练实体的算力资源信息确定所述目标长度，其中，所述训练状态信息还指示用于完成所述目标模型训练任务的训练数据的总长度。
如权利要求22至28中任一项所述的方法，其特征在于，所述方法还包括：

所述模型训练管理实体接收来自所述第一目标模型训练实体的协助训练反馈信息，所述协助训练反馈信息指示以下至少一项：

所述第一目标模型训练实体执行所述目标模型训练任务达到的精度、

所述第一目标模型训练实体执行所述目标模型训练任务耗费的时长、

所述第一目标模型训练实体执行所述目标模型训练任务的执行进度、

所述第一目标模型训练实体执行所述目标模型训练任务占用的资源数量；

所述第一目标模型训练实体向所述模型训练管理实体发送所述协助训练反馈信息。
如权利要求22至29中任一项所述的方法，其特征在于，所述方法还包括：

所述模型训练管理实体接收来自所述第一目标模型训练实体的网络状态更改信息；

所述第一目标模型训练实体向所述模型训练管理实体发送所述网络状态更改信息；

所述模型训练管理实体基于所述网络状态更改信息和所述多个算力资源信息确定将所述第一目标模型训练实体更换为所述多个模型训练实体中的第二目标模型训练实体；

所述模型训练管理实体向所述第二目标模型训练实体发送第三训练任务配置信息，所述第三训练任务配置信息指示协助所述第一模型训练实体执行所述目标模型训练任务；

所述第二目标模型训练实体接收来自所述模型训练管理实体的所述第三训练任务配置信息。
如权利要求22至30中任一项所述的方法，其特征在于，所述方法还包括：

所述模型训练管理实体获取策略信息，所述策略信息指示基于所述多个算力资源信息在所述多个模型训练实体确定所述第一目标模型实体的方式，和/或，指示基于用于完成所述目标模型训练任务的训练数据的总长度确定用于所述第一目标模型实体协助执行所述目标模型训练任务的训练数据的目标长度的方式。
如权利要求22至31中任一项所述的方法，其特征在于，所述方法还包括：

所述目标模型训练实体向所述模型训练实体发送所述模型训练报告信息，所述模型训练报告信息指示完成所述目标模型训练任务获得的子模型；

所述模型训练实体接收来自所述目标模型训练实体的模型训练报告信息；

所述模型训练实体基于所述子模型执行模型聚合。
如权利要求22或32所述的方法，其特征在于，所述模型训练管理实体协助所述第一模型训练管理实体执行所述目标模型训练任务，包括：

所述模型训练实体获取目标训练数据；

所述模型训练实体采用目标训练数据协助所述第一模型训练管理实体执行所述目标模型训练任务。
一种通信装置，其特征在于，包括用于执行如权利要求1至10中任一项所述方法的模块，或者，包括用于执行如权利要求11至15中任一项所述方法的模块，或者，包括用于执行如权利要求16至21中任一项所述方法的模块，或者，包括用于执行如权利要求22至33中任一项所述方法的模块。
一种通信装置，其特征在于，包括至少一个处理器，所述至少一个处理器用于执行存储器中存储的计算机程序，以使得所述装置实现如权利要求1至10中任一项所述的方法、或者如权利要求11至15中任一项所述的方法、或者如权利要求16至21中任一项所述的方法、或者如权利要求22至33中任一项所述的方法。
一种通信装置，其特征在于，包括至少一个处理器，所述至少一个处理器与至少一个存储器耦合，所述至少一个处理器用于执行所述至少一个存储器中存储的计算机程序或指令，如权利要求1至10中任一项所述的方法被执行，或者如权利要求11至15中任一项所述的方法被执行，或者如权利要求16至21中任一项所述的方法被执行，或者如权利要求22至33中任一项所述的方法被执行。
一种计算机可读存储介质，其特征在于，包括计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1至10中任一项所述的方法、或者如权利要求11至15中任一项所述的方法、或者如权利要求16至21中任一项所述的方法、或者如权利要求22至33中任一项所述的方法。
一种通信系统，其特征在于，包括用于执行如权利要求1至10中任一项所述方法的装置，和用于执行如权利要求11至15中任一项所述方法的装置，以及用于执行如权利要求16至21中任一项所述方法的装置。
一种计算机程序产品，其特征在于，包括计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机实现如权利要求1至10中任一项所述的方法，或使得所述计算机实现如权利要求11至15中任一项所述的方法，或使得所述计算机实现如权利要求16至21中任一项所述的方法，或使得所述计算机实现如权利要求22至33中任一项所述的方法。
一种通信装置，其特征在于，包括：处理器，用于执行存储器中存储的计算机程序，以使得所述装置执行如权利要求1至10中任一项所述的方法，或者以使得所述装置执行如权利要求11至15中任一项所述的方法，或者以使得所述装置执行如权利要求16至21中任一项所述的方法，或者以使得所述装置执行如权利要求22至33中任一项所述的方法。
如权利要求40所述的装置，其特征在于，所述装置还包括所述存储器。