WO2024125251A1

WO2024125251A1 - 资源分配的方法及装置

Info

Publication number: WO2024125251A1
Application number: PCT/CN2023/133357
Authority: WO
Inventors: 孙楚旻; 周李; 任玉鑫; 樊瑞; 孙杰; 陈东辉
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-12-16
Filing date: 2023-11-22
Publication date: 2024-06-20
Anticipated expiration: 2025-06-16
Also published as: EP4625168A4; EP4625168A1; CN118210615A

Abstract

本申请实施例提供了一种资源分配的方法及装置，该方法包括：获取多个任务中的每个任务的运行性能数据，每个任务的运行性能数据包括每个任务在对应的样本资源规模下的运行性能；根据多个任务中的每个任务的运行性能数据确定每个任务在独占对应的候选资源规模的情况下的运行性能；根据多个任务中的每个任务在独占对应的候选资源规模的情况下的运行性能确定该多个任务中的每个任务对应的目标资源。本申请实施例的方案有利于为多个任务分配较为合理的算力资源，从而提高多个任务的整体运行性能。

Description

资源分配的方法及装置

本申请要求在2022年12月16日提交中国国家知识产权局、申请号为202211624304.6的中国专利申请的优先权，发明名称为“资源分配的方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及数据处理技术领域，并且更具体地，涉及一种资源分配的方法及装置。

背景技术

算力资源分配是影响任务的运行性能的重要因素之一。在一些方案中，算力资源分配方案是基于通用算法确定的。然而，通用算法无法感知任务的特点，即无法根据不同的任务的特点来分配算力资源，难以实现任务与算力资源的最佳匹配。在另一些方案中，算力分配方案是由用户确定的，例如，由用户指定任务所需要的算力资源，或者，由用户为任务定制算力资源分配方案。然而人为确定资源分配方案的方式对用户的要求较高，且该方式效率较低，难以满足运行需求。

如何实现算力资源分配成为一个亟待解决的问题。

发明内容

本申请实施例提供一种资源分配的方法及装置，有利于为多个任务分配较为合理的算力资源，从而提高多个任务的整体运行性能。

第一方面，提供了一种资源分配的方法，包括：获取多个任务中的每个任务的运行性能数据，多个任务中的每个任务的运行性能数据包括每个任务在每个任务对应的样本资源规模下的运行性能；根据多个任务中的每个任务的运行性能数据确定多个任务中的每个任务在独占多个任务对应的候选资源规模的情况下的运行性能；根据多个任务中的每个任务在独占每个任务对应的候选资源规模的情况下的运行性能确定多个任务中的每个任务对应的目标资源。

在本申请实施例的方案中，可以基于多个任务的运行性能数据分析任务，以识别各个任务自身的行为特点，例如，各个任务独占资源时的运行性能，并基于任务自身的行为特点确定多个任务中的每个任务对应的目标资源，有利于提高任务与资源的匹配度，从而提高该多个任务的整体运行性能。

示例性地，任务的运行性能可以包括任务的运行时间、任务的响应时延、任务的资源利用率或通过硬件性能监控单元(performance monitoring unit，PMU)计数器采集的数据等。

一个任务在一种资源规模下的运行性能可以包括以下至少一项：该任务在独占该资源规模的情况下的运行性能；该任务在非独占该资源规模的情况下的运行性能。

每个任务对应的样本资源规模可以包括一种样本资源规模，也可以包括多种样本资源规模。

不同任务对应的样本资源规模可以相同，也可以不同。

示例性地，资源可以包括进程资源。一个单位资源可以为一个进程。资源规模可以为进程的数量。

结合第一方面，在第一方面的某些实现方式中，该多个任务中的至少一个任务的运行性能数据包括该至少一个任务在非独占该至少一个任务对应的样本资源规模的情况下的运行性能。

在实际应用的场景中，通常任务不独占资源。在本申请实施例的方案中，可以根据基于任务在不独占资源时的运行性能确定任务在独占资源时的运行性能，减少了对该多个任务的运行性能数据的限制。本申请实施例的方案中获取到的多个任务的运行性能既可以包括任务独占资源的情况下的运行性能，还可以包括任务在不独占资源的情况下的运行性能，提高了获取到的运行性能数据的数据量，为后续的处理过程奠定了数据基础，从而有利于更准确地分析该多个任务，进而实现合理的资源分配。

结合第一方面，在第一方面的某些实现方式中，每个任务对应的目标资源包括每个任务对应的一个或多个进程，一个或多个进程分别与一个或多个资源槽(slot)绑定。

slot和处理器核可以是一一对应的。一个或多个进程分别与一个或多个slot绑定，也可以理解为一个或多个进程分别与一个或多个处理器核绑定。

在本申请实施例的方案中，将进程与slot绑定，可以在全局范围内实现进程的分配，也即实现全局范围内的slot的分配，有利于得到最优的资源分配方案。同时本申请实施例的方案，将进程与slot绑定，实现了精细化的算力分配，无需算力节点内核的二次调度，即无需由算力节点为进程调度处理器核，避免了二次调度所带来的开销。

结合第一方面，在第一方面的某些实现方式中，多个进程为多个连续的进程，多个slot为多个连续的slot。

多个slot为多个连续的slot指的是该多个slot的编号连续。

在本申请实施例中，为各个任务分配连续的slot，有利于减少各个任务执行过程中的通信代价，进一步提高任务的运行性能。

结合第一方面，在第一方面的某些实现方式中，多个任务包括第一任务，根据第一任务的运行性能数据确定第一任务在独占第一任务对应的候选资源规模的情况下的运行性能，包括：根据第一任务的运行性能数据构建第一任务的第一性能模型，其中，第一任务的第一性能模型用于预测第一任务在独占输入至第一任务的性能模型的资源规模的情况下的运行性能；根据第一任务的第一性能模型确定第一任务在独占第一任务对应的第一候选资源规模的情况下的运行性能，第一任务对应的候选资源规模包括第一任务对应的第一候选资源规模。

第一任务可以为该多个任务中的任一任务。

本申请实施例中，通过任务的运行性能数据对该任务进行性能建模，有利于实现对任务的准确的性能分析，从而为后续算力资源的合理分配提供基础。

结合第一方面，在第一方面的某些实现方式中，多个任务包括第二任务，根据第二任务的运行性能数据确定第二任务在独占第二任务对应的候选资源规模的情况下的运行性能，包括：根据第二任务的波动系数模型和第二任务的运行性能数据确定第二任务在独占第二任务对应的第二候选资源规模的情况下的运行性能。第二任务对应的候选资源规模包括第二任务对应的第二候选资源规模。第二任务的运行性能数据包括第二任务在第二任务对应的样本资源分配方案下的运行性能。第二候选资源规模为第二任务对应的样本资源分配方案所指示的样本资源规模。第二任务的波动系数模型用于预测输入至第二任务的波动系数模型的资源分配方案对应的第二任务的波动系数。第二任务对应的样本资源分配方案对应的第二任务的波动系数用于指示第二任务在第二任务对应的样本资源分配方案下的运行性能和第二任务在独占第二任务对应的样本资源规模的情况下的运行性能之间的差异。

在本申请实施例的方案中，基于任务的波动系数对任务在样本资源分配方案下的运行性能数据进行性能反解，以预测任务在独占资源时的运行性能，有利于实现对各个任务的准确的性能分析，从而为后续算力资源的合理分配提供基础。

结合第一方面，在第一方面的某些实现方式中，每个任务对应的候选资源规模为每个任务对应的候选资源规模中的部分资源规模，每个任务对应的候选资源规模中的部分资源规模与每个任务在独占每个任务对应的所有候选资源规模中的部分资源规模的情况下的运行性能满足第一预设条件。

在本申请实施例的方案中，可以基于第一预设条件从候选资源规模中确定部分资源规模，减少了候选资源规模的组合的数量，即减少了后续目标资源分配过程中的搜索空间，有利于提高资源分配的效率。具体地，基于该任务在独占该任务对应的资源规模的情况下的运行性能与该资源规模确定该部分资源规模，有利于避免在后续的资源分配中为任务分配过多的资源，从而导致资源浪费。

结合第一方面，在第一方面的某些实现方式中，第一预设条件包括：每个任务在独占每个任务对应的候选资源规模中的部分资源规模的情况下的运行性能与每个任务对应的候选资源规模中的部分资源规模之间的比值大于或等于第一阈值，第一阈值为任务对资源规模的利用效率的阈值。

在本申请实施例的方案中，可以基于任务在独占该任务对应的资源规模的情况下的运行性能与该资源规模之间的比值，即任务的资源效率，确定该部分资源规模，将较高的资源效率对应的候选资源规模作为该部分候选资源规模，避免在后续的资源分配中为任务分配过多的资源，从而导致资源浪费。

结合第一方面，在第一方面的某些实现方式中，根据多个任务中的每个任务在独占所述每个任务对应的候选资源规模的情况下的运行性能确定多个任务中的每个任务对应的目标资源，包括：根据多个任务中的每个任务在独占每个任务对应的候选资源规模中的部分资源规模的情况下的运行性能确定多种资源规模组合下的目标候选资源分配方案，多种资源规模组合基于每个任务对应的候选资源规模中的部分资源规模的组合确定，多种资源规模组合中的每种资源规模组合下的目标候选资源分配方案指示每种资源规模组合下多个任务中的每个任务对应的目标候选资源；确定多种资源规模组合中的每种资源规模组合下的目标候选资源分配方案对应的多个任务的波动系数，每种资源规模组合下的目标候选资源分配方案对应的多个任务的波动系数分别用于指示多个任务在每种资源规模组合下的目标候选资源分配方案下并行执行的运行性能和多个任务在独占每种资源规模组合中的每个任务对应的资源规模的情况下的运行性能之间的差异；根据每种资源规模组合下的目标候选资源分配方案对应的多个任务的波动系数预测多个任务在每种资源规模组合下的目标候选资源分配方案下并行执行的运行性能；根据多个任务在多种资源规模组合下的目标候选资源分配方案下并行执行的运行性能从多种资源规模组合下的目标候选资源分配方案中确定多个任务中的每个任务对应的目标资源。

在本申请实施例的方案中，基于多个任务独占资源时的运行性能确定各个资源规模组合下的目标候选资源分配方案，并基于目标候选资源分配方案计算各个任务的波动系数，从而确定该多个任务在并行执行时的运行性能，进而确定多个任务中的每个任务对应的目标资源。这样，可以避免对所有资源规模组合下的所有的资源分配方案进行枚举，大大减少了计算量，提高了算力资源的效率。同时，本申请实施例的方案基于波动系数还原了各个任务在并行执行时的运行性能，更符合实际运行情况，有利于提高整体性能的预测准确度，从而进一步提高资源分配的合理性。

结合第一方面，在第一方面的某些实现方式中，根据多个任务中的每个任务在独占每个任务对应的候选资源规模中的部分资源规模的情况下的运行性能确定多种资源规模组合下的目标候选资源分配方案，包括：根据多个任务中的每个任务在独占每个任务对应的候选资源规模中的部分资源规模的情况下的运行性能从每种资源规模组合下的候选资源分配方案中确定每种资源规模组合下的目标候选资源分配方案，每组资源规模组合下的候选资源分配方案所指示的每个任务对应的候选资源连续，多个任务在每种资源规模组合下的目标候选资源分配方案下独占每种资源规模组合中的每个任务对应的资源规模的情况下的整体运行性能优于多个任务在每种资源规模组合下的其他候选资源分配方案下独占每种资源规模组合中的每个任务对应的资源规模的情况下的整体运行性能。

结合第一方面，在第一方面的某些实现方式中，确定多种资源规模组合中的每种资源规模组合下的目标候选资源分配方案对应的多个任务的波动系数，包括：根据多个任务的运行性能数据构建多个任务的波动系数模型，多个任务的波动系数模型分别用于预测输入至多个任务的波动系数模型的资源分配方案对应的多个任务的波动系数；根据多个任务的波动系数模型分别确定多种资源规模组合中的每种资源规模组合下的目标候选资源分配方案对应的多个任务的波动系数。

结合第一方面，在第一方面的某些实现方式中，多个任务包括多个应用对应的任务，多个应用中的每个应用对应一个任务。

结合第一方面，在第一方面的某些实现方式中，多个任务包括一个应用中的多个功能模块对应的任务，多个功能模块中的每个功能模块对应一个任务。

第二方面，提供了一种资源分配装置，包括获取单元，用于获取多个任务中的每个任务的运行性能数据，多个任务中的每个任务的运行性能数据包括每个任务在每个任务对应的样本资源规模下的运行性能；处理单元，用于：根据多个任务中的每个任务的运行性能数据确定多个任务中的每个任务在独占每个任务对应的候选资源规模的情况下的运行性能；根据多个任务中的每个任务在独占每个任务对应的候选资源规模的情况下的运行性能确定多个任务中的每个任务对应的目标资源。

结合第二方面，在第二方面的某些实现方式中，每个任务对应的目标资源包括每个任务对应的一个或多个进程，一个或多个进程分别与一个或多个slot绑定。

结合第二方面，在第二方面的某些实现方式中，多个进程为多个连续的进程，多个slot为多个连续的slot。

结合第二方面，在第二方面的某些实现方式中，多个任务包括第一任务，处理单元具体用于：根据第一任务的运行性能数据构建第一任务的第一性能模型，其中，第一任务的第一性能模型用于预测第一任务在独占输入至第一任务的性能模型的资源规模的情况下的运行性能；根据第一任务的第一性能模型确定第一任务在独占第一任务对应的第一候选资源规模的情况下的运行性能，第一任务对应的候选资源规模包括第一任务对应的第一候选资源规模。

结合第二方面，在第二方面的某些实现方式中，处理单元具体用于：每个任务对应的候选资源规模为每个任务对应的所有候选资源规模中的部分资源规模，每个任务对应的候选资源规模中的部分资源规模与每个任务在独占每个任务对应的候选资源规模中的部分资源规模的情况下的运行性能满足第一预设条件。

结合第二方面，在第二方面的某些实现方式中，第一预设条件包括：每个任务在独占每个任务对应的候选资源规模中的部分资源规模的情况下的运行性能与每个任务对应的候选资源规模中的部分资源规模之间的比值大于或等于第一阈值，第一阈值为任务对资源规模的利用效率的阈值。

结合第二方面，在第二方面的某些实现方式中，处理单元具体用于：根据多个任务中的每个任务在独占每个任务对应的候选资源规模中的部分资源规模的情况下的运行性能确定多种资源规模组合下的目标候选资源分配方案，多种资源规模组合基于每个任务对应的候选资源规模中的部分资源规模的组合确定，多种资源规模组合中的每种资源规模组合下的目标候选资源分配方案指示每种资源规模组合下多个任务中的每个任务对应的目标候选资源；确定多种资源规模组合中的每种资源规模组合下的目标候选资源分配方案对应的多个任务的波动系数，每种资源规模组合下的目标候选资源分配方案对应的多个任务的波动系数分别用于指示多个任务在每种资源规模组合下的目标候选资源分配方案下并行执行的运行性能和多个任务在独占每种资源规模组合中的每个任务对应的资源规模的情况下的运行性能之间的差异；根据每种资源规模组合下的目标候选资源分配方案对应的多个任务的波动系数预测多个任务在每种资源规模组合下的目标候选资源分配方案下并行执行的运行性能；根据多个任务在多种资源规模组合下的目标候选资源分配方案下并行执行的运行性能从多种资源规模组合下的目标候选资源分配方案中确定多个任务中的每个任务对应的目标资源。

结合第二方面，在第二方面的某些实现方式中，处理单元具体用于：根据多个任务中的每个任务在独占每个任务对应的候选资源规模中的部分资源规模的情况下的运行性能从每种资源规模组合下的候选资源分配方案中确定每种资源规模组合下的目标候选资源分配方案，每组资源规模组合下的候选资源分配方案所指示的每个任务对应的候选资源连续，多个任务在每种资源规模组合下的目标候选资源分配方案下独占每种资源规模组合中的每个任务对应的资源规模的情况下的整体运行性能优于多个任务在每种资源规模组合下的其他候选资源分配方案下独占每种资源规模组合中的每个任务对应的资源规模的情况下的整体运行性能。

结合第二方面，在第二方面的某些实现方式中，处理单元具体用于：根据多个任务的运行性能数据构建多个任务的波动系数模型，多个任务的波动系数模型分别用于预测输入至多个任务的波动系数模型的资源分配方案对应的多个任务的波动系数；根据多个任务的波动系数模型分别确定多种资源规模组合中的每种资源规模组合下的目标候选资源分配方案对应的多个任务的波动系数。

结合第二方面，在第二方面的某些实现方式中，多个任务包括多个应用对应的任务，多个应用中的每个应用对应一个任务。

结合第二方面，在第二方面的某些实现方式中，多个任务包括一个应用中的多个功能模块对应的任务，多个功能模块中的每个功能模块对应一个任务。

应理解，在上述第一方面中对相关内容的扩展、限定、解释和说明也适用于第二方面中相同的内容。

第三方面，提供了一种资源分配的装置，包括处理器和存储器，可选地，还包括输入输出接口。其中所述处理器用于控制所述输入输出接口收发信息，所述存储器用于存储计算机程序，所述处理器用于从存储器中调用并运行该计算机程序，使得该装置执行第一方面或第一方面任意一种可能的实现方式中所述的方法。

可选地，该处理器可以是通用处理器，可以通过硬件来实现也可以通过软件来实现。当通过硬件实现时，该处理器可以是逻辑电路、集成电路等；当通过软件来实现时，该处理器可以是一个通用处理器，通过读取存储器中存储的软件代码来实现，该存储器可以集成在处理器中，可以位于该处理器之外，独立存在。

第四方面，提供了一种计算设备集群，包括至少一个计算设备，每个计算设备包括处理器和存储器。至少一个计算设备的处理器用于执行至少一个计算设备的存储器中存储的指令，以使得计算设备集群执行第一方面以及第一方面的任意一种实现方式中的方法。

第五方面，提供一种计算机可读介质，包括计算机程序指令，当计算机程序指令由计算设备集群执行时，计算设备集群执行第一方面以及第一方面的任意一种实现方式中的方法。

第六方面，提供一种包含指令的计算机程序产品，当所述指令被计算设备集群运行时，使得计算设备集群执行上述第一方面以及第一方面的任意一种实现方式中的方法。

作为示例，这些计算机可读存储包括但不限于如下的一个或者多个：只读存储器(read-only memory，ROM)、可编程ROM(programmable ROM，PROM)、可擦除的PROM(erasable PROM，EPROM)、Flash存储器、电EPROM(electrically EPROM，EEPROM)以及硬盘驱动器(hard drive)。

可选地，作为一种实现方式，上述存储介质具体可以是非易失性存储介质。

附图说明

图1为一种算力资源分配的不同层级的示意图。

图2为一种算力资源分配的方法的示意图。

图3为本申请实施例的一种算力资源分配的方法的示意图。

图4为本申请实施例的一种资源分配的装置的示意性框图。

图5为本申请实施例的一种资源分配的方法的示意性流程图。

图6为本申请实施例的另一种资源分配的方法的示意性流程图。

图7为本申请实施例的一种性能矩阵的处理流程的示意图。

图8为本申请实施例的一种装箱算法的处理流程的示意图。

图9为本申请实施例的一种资源分配方案的示意图。

图10为本申请实施例的另一种资源分配方案的示意图。

图11为本申请实施例的一种资源分配的装置的示意性框图。

图12为本申请实施例的一种计算设备的示意性框图。

图13为本申请实施例的一种计算设备集群的示意性框图。

图14为本申请实施例的一种计算设备之间的连接关系的示意性框图。

具体实施方式

下面将结合附图，对本申请实施例中的技术方案进行描述。

本申请将围绕包括多个设备、组件、模块等的系统来呈现各个方面、实施例或特征。应当理解和明白的是，各个系统可以包括另外的设备、组件、模块等，并且/或者可以并不包括结合附图讨论的所有设备、组件、模块等。此外，还可以使用这些方案的组合。

本申请实施例中，“相应的(corresponding，relevant)”和“对应的(corresponding)”有时可以混用，应当指出的是，在不强调其区别时，其所要表达的含义是一致的。

本申请实施例描述的业务场景是为了更加清楚地说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着网络架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：包括单独存在A，同时存在A和B，以及单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b，或c中的至少一项(个)，可以表示：a，b，c，a-b，a-c，b-c，或a-b-c，其中a，b，c可以是单个，也可以是多个。

为了更好地说明本申请实施例的方案，下面先对本申请中可能涉及的术语进行说明。

(1)并行应用；

由于并行应用能够显著提升应用性能，目前，并行应用已成为应用开发的一种主流模式。随着应用并行度的增加，应用所需要的算力资源规模迅速增加。

并行应用指一个应用内不同的功能组件并行执行。此外，对于一个组件而言，该组件也可以同时处理不同数据，以实现组件内并行。

并行应用有利于合理利用算力资源，从而提高应用的运行性能。

具体地，一个应用可以被抽象为展开的计算图，聚类呈若干簇，或者，也可以称为功能模块。每个功能模块可以用于实现应用的某一部分的功能。不同的功能模块可以同时执行。

在本申请实施例中，模块也可以称为功能模块、组件、功能组件或组件模块。

相对来说，模块内部的通信较为紧密，模块之间的通信较为稀疏。

(2)任务调度；

一个应用的执行可以被抽象为任务在计算资源的分配以及维护任务的执行。

并行应用可以将一个应用分解为多个子任务，该多个子任务可以分配给不同的处理器。不同的处理器可以同时处理该多个子任务，从而加速应用的执行。

(3)性能矩阵；

一个应用的性能矩阵可以用于表示该应用中的不同功能模块在不同的资源分配方案条件下运行的性能。例如，性能矩阵可以用于表示不同功能模块在不同的资源分配方案条件下运行所需要消耗的时间。

本申请实施例的方案能够应用于多任务并行的场景中。

在一种可能的实现方式中，该多个任务可以为多个应用。本申请实施例的方案能够用于为该多个应用分配资源。

示例性地，一个或多个用户可以提交多个作业任务到计算系统中，由系统统一管理、运行这些任务。该计算系统可以称为批作业处理系统或批处理系统。本申请实施例的方案可以应用于批处理系统中，为该多个作业任务分配算力资源。

例如，多个用户提交了多个作业任务。该多个作业任务具有消耗算力多、运行时间长、并行度高等特点。在该情况下，为了最大化系统的资源利用率，可以尽可能将该多个作业任务部署到有限的计算节点(比如一个计算节点)上。采用本申请实施例的方案可以将该多个作业任务部署到指定的计算节点上，同时最优化该多个作业任务的整体运行性能，例如，该多个作业任务的整体运行时间。

再如，多个用户提交了多个作业任务。当前系统中能够分配给该多个作业任务的资源是有限的。采用本申请实施例的方案可以在有限的资源中为该多个作业任务分配相应的资源，同时最优化该多个作业任务的整体性能，例如，该多个作业任务的整体运行时间。

在另一种可能的实现方式中，该多个任务可以为一个并行应用的多个子任务。本申请实施例的方案可以应用于并行应用的资源分配场景中，用于为并行应用的多个子任务分配算力资源。

示例性地，本申请实施例的方案可以应用于科学计算或高性能计算(high performance computing，HPC)等并行应用的场景中。

本申请实施例的方案尤其适用于大规模的并行应用场景中，例如，大规模的科学计算、大数据处理以及大规模图计算等并行应用场景中。

例如，通用地球系统模型(community earth system model，CESM)是高性能计算的应用之一，可以用于仿真模拟长期的气候变化情况。该系统由负责各个子系统的模块相互耦合而成。例如，子系统包括大气(atmosphere，ATM)、海洋(ocean，OCN)、海冰(sea ice，ICE)、陆地(land，LND)、径流(river runoff，ROF)、陆冰(land ice，GLC)、海浪(ocean wave，WAV)、耦合器(coupler，CPL)等。模块之间可以通过多点接口(multipoint interface，MPI)交换数据。耦合模式的运行性能是衡量HPC性能的重要指标。

算力资源分配是提升任务的运行性能的重要因素。

图1示出了一种算力资源分配的不同层级的示意图。面向并行应用的算力资源分配通常考虑4个层级：应用层、数据层、系统执行层以及硬件算力层。

如图1所示，应用层从功能角度抽象出多个功能模块。该多个功能模块分别对应多个任务。该多个任务可以并行处理，即任务并行。多个功能模块之间可能存在通信、合作以及依赖等交互关系。数据层从数据角度出发将单个功能模块的处理数据分为多组。该多组数据可以并行处理，即数据并行。多组数据之间可能存在同步或共享等关系。系统执行层包括由操作系统提供的执行抽象，例如，进程或线程等执行抽象，用于承载和运行具体的功能模块来处理特定的数据分组。多个进程可以并行处理，即进程并行。硬件算力层包括具体负责程序运行的硬件单元，即计算资源，例如图1所示的CPU。系统执行层中的一个或多个执行抽象映射到计算资源上，从而最终完成算力资源的分配。系统执行层的并行即为算力并行。

在相关方案中，算力资源分配策略通常是基于通用算法确定或者由用户确定。然而，通用算法无法感知任务的特点，即无法根据不同的任务的特点来分配算力资源，难以实现任务与算力资源的最佳匹配。人为确定资源分配方案的方式对用户的要求较高，且该方式效率较低，难以满足运行需求。

下面以并行应用的一种算力资源分配的方法为例进行说明。图2示出了一种算力资源分配的方法的示意性流程图。

如图2所示，用户提交作业后，由客户端接口获取用户的作业需求。算力资源管理系统基于用户的作业需求生成等待队列，进而为等待队列中的多个任务分配算力节点。示例性地，系统可以通过通用算法确定算力资源分配策略。或者，如图2所示，用户可以通过命令或插件等形式指示算力资源分配策略。系统执行该算力资源分配策略以实现节点分配。例如，用户可以为不同的应用指定不同的算力资源分配策略或者根据不同的应用分别定制算力资源分配策略，从而提高算力资源分配策略与应用的适配性。具体地，系统基于算力资源分配策略将多个任务实例下发至算力节点，由算力节点中的操作系统(operation system，OS)实现每个任务实例的调度与计算。算力节点中的操作系统调度算力节点中的处理器来计算每个任务实例，或者说，算力节点中的操作系统为每个任务实例分配处理器(如图2中的CPU)，从而实现每个任务实例的计算。

在上述方案中，基于通用框架确定的算力资源分配策略无法感知应用的行为特点，难以实现应用与底层算力资源的最佳匹配。若要进一步提高应用的运行性能，则需要人为指定算力资源分配策略或者人为制定算力资源分配策略，效率较低，且对用户的要求较高。

有鉴于此，本申请实施例提供了一种资源分配的方法，有利于为多个任务分配较为合理的算力资源，从而提高多个任务的整体运行性能。

图3示出了本申请实施例的一种算力资源分配的方法的示意性流程图。

如图3所示，用户提交作业后，可以由客户端接口获取用户的作业需求。算力资源管理系统基于用户的作业需求生成等待队列，进而为等待队列中的多个任务分配资源。系统执行数据采集操作，以得到多个任务的运行性能数据。基于多个任务的运行性能数据对该多个任务进行性能分析，并根据性能分析的结果实现资源分配。

示例性地，系统可以在全局范围内进行资源分配，实现细粒度的资源分配，例如，如图3所示，实现CPU级的算力分配。系统可以将任务实例分配到对应的处理器上。相较于图2而言，无需算力节点调度处理器来实现任务实例，避免了二次调度带来的开销。

应理解，图3中的资源分配的粒度仅为示例，资源分配的粒度还可以为其他粒度。图3中以CPU作为处理器仅为示例，不对本申请实施例的方案构成限定。在其他实现方式中，还可以采用其他处理器。

资源分配的具体描述可以参考后文中的方法500。

为了更好地说明本申请实施例的方案，下面先对本申请实施例的资源分配的装置进行说明。

图4示出了本申请实施例提供的一种资源分配的装置400的示意性框图。示例性地，资源分配的装置400可以部署于图3所示的算力资源管理系统中。

如图4所示，资源分配的装置400可以包括信息采集器410、数据融合器420、应用分析器430以及资源分配器440。

基于用户提交的作业任务可以生成等待队列。资源分配的装置400可以为等待队列中的多个任务分配算力资源。

信息采集器410用于获取该多个任务的信息和可用资源的信息。

进一步地，信息采集器410还可以用于获取用户信息。

数据融合器420用于获取该多个任务的运行性能数据。

应用分析器430用于基于该多个任务的运行性能数据分析该多个任务的性能特性。

具体地，应用分析器430可以用于基于该多个任务的运行性能数据预测该多个任务在独占资源时的运行性能。

资源分配器440用于根据该多个任务的性能特性预测不同的资源分配方案下该多个任务的整体运行性能，从而确定目标资源分配方案。

根据该目标资源分配方案可以将任务实例分配至对应的目标资源上进行处理。

示例性地，目标资源分配方案可以用于指示该多个任务对应的进程。进程可以与硬件处理单元绑定。这样，可以将任务实例分配至对应的硬件单元上。

下面以该多个任务为并行应用的多个子任务为例对资源分配的装置400进行示例性说明。

基于用户提交的应用可以生成等待队列。该等待队列中的多个任务包括该应用对应的多个子任务。资源分配的装置400可以为等待队列中的多个任务分配算力资源。

信息采集器410用于获取该应用的相关信息。该应用的相关信息包括该应用的多个任务的信息和可用资源的信息。

进一步地，信息采集器410还可以用于获取用户信息。

数据融合器420用于获取该应用的多个应用实例的运行性能数据。该多个应用实例的运行性能数据包括该多个任务的运行性能数据。

应用分析器430用于基于该多个应用实例的运行性能数据分析该应用的性能特性。

具体地，应用分析器430可以用于基于该多个应用实例的运行性能数据预测该多个任务在独占资源时的运行性能。

资源分配器440用于根据该应用的性能特性预测不同的资源分配方案下该应用的整体运行性能，从而确定目标资源分配方案。

应理解，图4所示的资源分配的装置仅为示例，不对本申请实施例的方案构成限定。

图5示出了本申请实施例提供的一种资源分配的方法的示意性流程图。图5所示的方法500可以由资源分配的装置执行。示例性地，图5所示的方法可以由图4所示的装置400执行。

如图5所示，方法500包括以下步骤。

510，获取多个任务中的每个任务的运行性能数据。该多个任务中的每个任务的运行性能数据包括每个任务在每个任务对应的样本资源规模下的运行性能。

520，基于该多个任务中的每个任务的运行性能数据确定每个任务在独占该多个任务对应的候选资源规模的情况下的运行性能。

530，根据该多个任务中的每个任务在独占每个任务对应的候选资源规模的情况下的运行性能确定多个任务中的每个任务对应的目标资源。

换言之，步骤530可以理解为，根据该多个任务在独占该多个任务对应的候选资源规模的情况下的运行性能确定目标资源分配方案。目标资源分配方案用于指示该多个任务中的每个任务对应的目标资源。

可选地，方法500还可以包括步骤501(图中未示出)。

501，获取该多个任务的信息和可用资源的信息。

示例性地，步骤501可以由图4中的信息采集器410执行。

该多个任务的信息可以用于指示该多个任务或该多个任务的数量。

可用资源的信息可以用于指示可用资源或可用资源的规模。例如，可用资源的信息可以由硬件参数表示。

示例性地，可用资源的规模可以为可用的算力节点的数量。

例如，算力节点可以为终端设备。再如，算力节点可以为服务器。

示例性地，可用资源的规模可以为可用的处理器的数量。

例如，处理器可以包括中央处理器(central processing unit，CPU)、图形处理器(graphics processing unit，GPU)或者数字信号处理器(digital signal processor，DSP)等处理器中的任意一种或多种。

示例性地，可用资源的规模可以为可用的处理器核的数量。

例如，处理器为CPU，处理器核为CPU核。

此外，方法500还可以包括：获取其他与该多个任务的资源分配相关的信息。例如，提交该多个任务的用户的信息。

可选地，该多个任务包括多个应用对应的任务。

换言之，该多个任务和该多个应用可以是一一对应的，即每个应用可以对应一个任务。

示例性地，该多个应用可以是由至少一个用户指示的。

例如，该多个任务可以包括用户#1提交的压缩任务以及用户#2提交的数据处理任务和压缩任务，即该多个任务可以包括两个压缩任务以及一个数据处理任务。

一个或多个用户可以提交多个作业任务到计算系统中，由系统统一管理、运行这些任务。该计算系统可以称为批作业处理系统或批处理系统。本申请实施例的方案可以应用于批处理系统的资源分配场景中，为该多个作业任务分配算力资源。

可选地，该多个任务包括一个应用中的多个功能模块对应的任务。

换言之，该多个任务可以包括一个应用的多个子任务。每个功能模块对应一个任务。该应用为并行应用。

例如，该多个任务可以包括CESM中负责ATM、OCN以及ICE的功能模块对应的任务。

用户可以提交应用任务到计算系统中，该应用为并行应用。本申请实施例的方案可以应用于并行应用的资源分配场景中，用于为并行应用的多个子任务分配算力资源。本申请实施例的方案应用于并行应用的资源分配场景的具体描述可以参考后文中的方法600。

应理解，以上仅为示例，不对本申请实施例中的多个任务构成限定，只要该多个任务能够并行执行即可。例如，该多个任务可以包括应用#1对应的任务和应用#2中的多个功能模块对应的任务，应用#1可以为非并行应用，应用#2可以为并行应用。

示例性地，任务的运行性能可以包括任务的运行时间、任务的响应时延、任务的资源利用率或通过硬件性能监控单元(performance monitoring unit,PMU)计数器采集的数据等。

该任务独占该资源规模的情况指的是为该任务分配的资源由该任务独占的情况。

该任务非独占该资源规模的情况指的是为该任务分配的资源的至少部分资源与其他任务共享的情况，即该任务与该任务共享至少部分资源的其他任务并行执行的情况。

一个任务独占该任务对应的资源规模，可以理解为，在该任务对应的资源上仅执行该任务。相对应地，一个任务非独占该任务对应的资源规模，可以理解为，该任务对应的资源上执行同时执行该任务和其他任务。或者，该任务和其他任务争抢该任务对应的资源。为了便于描述，在本申请实施例中，将任务独占该任务对应的资源规模简称为该任务独占资源，任务非独占该任务对应的资源规模简称为该任务不独占资源或任务非独占资源。

可选地，该多个任务中的至少一个任务的运行性能数据包括该至少一个任务在非独占该至少一个任务对应的样本资源规模的情况下的运行性能。

进一步地，在该多个任务包括一个应用中的多个功能模块对应的任务的情况下，步骤510可以包括：获取该应用的多个应用实例的运行性能数据。该多个应用实例的运行性能数据包括该多个任务的运行性能数据。

其中，每个应用实例的运行性能数据可以包括该多个任务中的部分或全部任务的运行性能数据。

换言之，每个任务的运行性能数据包括该任务在至少一种样本资源规模下的运行性能。

不同任务对应的样本资源规模可以相同，也可以不同。

下面对任务对应的样本资源规模的确定方式进行示例性说明。

示例性地，任务对应的样本资源规模可以是用户确定的。

可替换地，任务对应的样本资源规模可以是随机生成的。

可替换地，任务对应的样本资源规模可以基于该任务对应的默认资源规模生成的。

例如，任务对应的默认资源规模可以为预先为该任务设置的资源规模。再如，任务对应的默认资源规模可以是基于通用算法确定的。

例如，任务对应的样本资源规模可以包括该任务对应的默认资源规模和从该默认资源规模周围的资源规模中选择的资源规模。该默认资源规模周围的资源规模可以为与该默认资源规模之间的差值小于或等于规模阈值的资源规模。比如，默认资源规模为5个进程，规模阈值为3，则该默认资源规模的周围的资源规模即为[2,8]范围内的资源规模，从中选择部分或全部，与默认资源规模共同作为样本资源规模。其中，规模阈值可以是预先设置的固定值。或者，规模阈值也可以是根据默认资源规模确定的值。本申请实施例对此不做限定。

应理解，以上仅为示例，任务对应的样本资源规模还可以通过其他方式确定。

对于不同的任务，其对应的样本资源规模的确定方式可以相同，也可以不同。

在本申请实施例中，资源也可以称为算力、算力资源或计算资源。

资源分配方案用于指示任务对应的资源，即为任务分配的资源。不同的资源规模下的资源分配方案不同。每个任务的运行性能数据包括该任务在至少一种样本资源规模下的运行性能可以理解按照如下方式理解。每个任务的运行性能数据包括该任务在至少一种样本资源分配方案下的运行性能，该至少一个样本资源分配方案所指示的该任务对应的资源规模包括至少一种资源规模。

示例性地，样本资源分配方案为任务指示的资源可以是连续的。例如，样本资源分配方案为任务指示的进程可以是连续的。为任务分配的进程可以由为该任务分配的起始进程的ID和终止进程的ID表示。或者，为任务分配的进程可以由为该任务分配的起始进程的ID和为该任务分配的进程的数量表示。或者，为任务分配的进程还可以通过其他参数表示。

示例性地，步骤510可以由图4中的数据融合器420执行。

下面对任务的运行性能数据的获取方式进行示例性说明。

示例性地，从任务的历史运行数据中获取该任务的运行性能数据。

例如，从该任务的历史运行数据中采集该任务对应的样本资源规模下的运行数据。

可替换地，从正在运行的任务实例的监控数据中获取该任务的运行性能数据。

例如，当前正在运行的任务实例处于该任务对应的样本资源规模下，可以从监控数据中获取该任务实例的运行性能作为该任务的运行性能数据。

可替换地，在任务对应的样本资源规模下预执行该任务。

基于任务对应的样本资源规模为该任务分配资源，在该资源下预执行该任务一段时间，从监控数据中获取该任务的运行性能数据。

一个任务的运行性能数据可以采用上述任一种方式获取，也可以采用上述多种方式共同获取。例如，对于一个任务对应的不同的样本资源规模，可以采用不同的方式采集对应的运行性能。

不同任务的运行性能数据的获取方式可以相同，也可以不同。

应理解，以上任务的运行性能数据的获取方式仅为示例，不对本申请实施例的方案构成限定。

示例性地，步骤520可以由图4中的应用分析器430执行。

示例性地，在步骤520中，对于一个任务而言，可以根据该任务的运行性能数据确定该任务在独占该任务对应的候选资源规模的情况下的运行性能。

一个任务对应的样本资源规模和该任务对应的候选资源规模可以相同，也可以不同。

每个任务对应的候选资源规模可以包括一种候选资源规模，也可以包括多种候选资源规模。

对于不同的任务而言，其对应的候选资源规模可以相同，也可以不同。

例如，该多个任务可以包括任务#1和任务#2。任务#1对应的候选资源规模包括两个单位资源和三个单位资源。任务#2对应的候选资源规模包括两个单位资源。在步骤520中，可以根据任务#1的运行性能数据确定任务#1在独占三个单位资源的情况下的运行性能以及任务#1在独占两个单位资源的情况下的运行性能，根据任务#2的运行性能数据确定任务#2在独占两个单位资源的情况下的运行性能。

下面结合三个示例(示例1，示例2和示例3)对步骤520进行示例性说明。

示例1；

可选地，多个任务可以第一任务。根据第一任务的运行性能数据构建第一任务的第一性能模型，其中，第一任务的第一性能模型用于预测第一任务在独占输入至第一任务的第一性能模型的资源规模的情况下的运行性能；根据第一任务的第一性能模型确定第一任务在独占第一任务对应的第一候选资源规模的情况下的运行性能。第一任务对应的候选资源规模包括第一任务对应的第一候选资源规模。

第一任务可以为该多个任务中的任一任务。

对于该多个任务中的任一任务而言，可以根据该任务的运行性能构建该任务的第一性能模型。任务的第一性能模型用于预测任务在独占该任务对应的资源规模的情况下的运行性能。任务的第一性能模型的输入可以包括该任务对应的资源规模，该任务的第一性能模型的输出可以包括该任务在独占该任务对应的资源规模的情况下的运行性能。将第一候选资源规模输入至第一任务的对性能模型中，可以预测出第一任务在独占第一任务对应的第一候选资源规模的情况下的运行性能。

或者，也可以按照如下方式理解，第一任务的第一性能模型用于指示第一任务对应的资源规模与第一任务在独占该资源规模的情况下的运行性能之间的映射关系。基于该映射关系以及第一候选资源规模，可以确定第一任务在独占第一任务对应的第一候选资源规模的情况下的运行性能。

示例性地，该多个任务中的其他任务也可以参考上述方式确定运行性能。例如，步骤520可以包括：根据该多个任务中的每个任务的运行性能数据分别构建每个任务的第一性能模型；分别根据每个任务的第一性能模型确定每个任务在独占对应的第一候选资源规模的情况下的运行性能。

作为任务的第一性能模型的输入的资源规模均可以作为该任务对应的第一候选资源规模。第一候选资源规模可以包括一种，也可以包括多种。对于不同的任务而言，其对应的第一候选资源规模可以相同，也可以不同。

例如，该多个任务可以包括任务#1和任务#2。任务#1对应的候选资源规模包括两个单位资源和三个单位资源。任务#2对应的候选资源规模包括两个单位资源。任务#1对应的第一候选资源规模可以为两个单位资源。在该情况下，可以将两个单位资源输入至任务#1的第一性能模型中，由任务#1的第一性能模型预测任务#1在独占两个单位资源的情况下的运行性能。任务#2在独占两个单位资源的情况下的运行性能可以通过其他方式确定，在该情况下，任务#2对应的候选资源规模不包括任务#2对应的第一候选资源。

示例性地，第一性能模型可以为AI模型。例如，该第一性能模型可以为神经网络模型。根据任务的运行性能数据构建该任务的第一性能模型，可以理解为，以该任务的运行性能数据作为训练数据进行训练，得到该任务的第一性能模型。

可替换地，第一性能模型也可以其他模型。具体描述可以参考方法600。

本申请实施例中，通过多个任务的运行性能数据对该多个任务进行性能建模，有利于实现对各个任务的准确的性能分析，从而为后续算力资源的合理分配提供基础。

示例2；

可选地，方法500还包括：根据该多个任务的运行性能数据分别构建该多个任务的波动系数模型。该多个任务的波动系数模型分别用于预测输入至该多个任务的波动系数模型的资源分配方案对应的多个任务的波动系数。

对于一个任务而言，该任务的波动系数模型可以用于预测输入至该波动系数模型的资源分配方案对应的该任务的波动系数。该波动系数模型的输入为资源配置方案，输出为该资源配置方案对应的该任务的波动系数，或者说，该任务在该资源配置方案下的波动系数。

或者可以按照如下方式理解，任务的波动系数模型用于指示资源分配方案与该任务在该资源分配方案下的波动系数之间的映射关系。

一个资源分配方案对应的一个任务的波动系数用于指示该任务在该资源分配方案下的运行性能和该任务在独占该任务对应的资源规模的情况下的运行性能之间的差异。该任务对应的资源规模由该资源分配方案指示。

示例性地，一个资源分配方案对应的一个任务的波动系数可以为该任务在该资源分配方案下的运行性能与该任务在独占该任务对应的资源规模的情况下的运行性能之间的比值。该任务对应的资源规模由该资源分配方案指示。

示例性地，波动系数模型可以为AI模型。例如，该波动系数模型可以为神经网络模型。根据该多个任务中的每个任务的运行性能数据构建每个任务的波动系数模型，可以理解为，以每个任务的运行性能数据作为训练数据进行训练，得到每个任务的波动系数模型。

可替换地，波动系数模型也可以其他模型。具体描述可以参考方法600。

可选地，该多个任务包括第二任务。根据该多个任务中的第二任务的波动系数模型和第二任务的运行性能数据确定第二任务在独占第二任务对应的第二候选资源规模的情况下的运行性能。第二任务对应的候选资源规模包括第二任务对应的第二候选资源规模。第二任务的运行性能数据包括第二任务在第二任务对应的样本资源分配方案下的运行性能。第二候选资源规模为第二任务对应的样本资源分配方案所指示的样本资源规模。

第二任务可以为该多个任务中的任一任务。对于该多个任务中的任一任务而言，可以根据该任务的运行性能数据构建该任务的波动系数模型。该任务的波动系数模型用于预测输入至该任务的波动系数模型的资源配置方案对应的该任务的波动系数。输入至该任务的波动系数模型的资源配置方案为该任务对应的资源配置方案。任务的波动系数模型的输入可以包括资源分配方案，该任务的波动系数模型的输出可以包括该资源分配方案对应的该任务的波动系数，即该任务在该资源分配方案下的波动系数。

或者，也可以按照如下方式理解。该任务的波动系数模型用于指示输入至该波动系数模型的资源分配方案与该任务在该资源分配方案下的波动系数之间的映射关系。基于该映射关系以及该任务对应的资源分配方案，可以确定该任务在该任务对应的资源分配方案下的波动系数。

在步骤520中，可以将第二任务对应的样本资源分配方案输入至第二任务的波动模型中，由第二任务的波动模型预测出第二任务在该样本资源分配方案下的波动系数。基于该波动系数和第二任务在该样本资源分配方案下的运行性能可以预测第二任务在独占第二任务对应的第二候选资源规模的情况下的运行性能。第二任务对应的第二候选资源规模为该样本资源分配方案所指示的样本资源规模。

基于一个任务在该任务对应的资源分配方案下的运行性能确定该任务在独占该任务对应的资源分配方案所指示的资源规模的情况下的运行性能的过程可以称为性能反解。

示例性地，该多个任务中的其他任务也可以参考上述方式确定运行性能。例如，步骤520可以包括：分别根据每个任务的波动系数模型和每个任务的运行性能数据确定每个任务在独占每个任务对应的第二候选资源规模的情况下的运行性能。每个任务的运行性能数据包括每个任务在每个任务对应的样本资源分配方案下的运行性能。每个任务对应的第二候选资源规模即为每个任务对应的样本资源分配方案所指示的样本资源规模。每个任务对应的候选资源规模包括每个任务对应的样本资源规模。

作为任务的波动系数模型的输入的资源分配方案所指示的资源的规模均可以作为该任务对应的第二候选资源规模。第二候选资源规模可以包括一种，也可以包括多种。对于不同的任务而言，其对应的第二候选资源规模可以相同，也可以不同。

例如，该多个任务可以包括任务#1和任务#2。任务#1对应的候选资源规模包括两个单位资源和三个单位资源。任务#2对应的候选资源规模包括两个单位资源。任务#1对应的样本资源分配方案指示的资源的规模为三个单位资源。即任务#1对应的第二资源规模可以为三个单位资源。在该情况下，可以将任务#1对应的样本资源分配方案输入至任务#1的波动系数模型中，由任务#1的波动系数模型预测任务#1在该样本资源分配方案下的波动系数。基于该波动系数对任务#1在任务#1对应的资源分配方案下的运行性能进行性能反解，以得到任务#1在独占三个单位资源的情况下的运行性能。任务#2在独占两个单位资源的情况下的运行性能可以通过其他方式确定，在该情况下，任务#2对应的候选资源规模不包括任务#2对应的第二候选资源规模。

示例3；

可选地，步骤510中获取的多个任务的运行性能数据包括该多个任务中的第三任务在独占第三任务对应的第三候选资源规模的情况下的运行性能。第三任务对应的候选资源规模包括第三任务对应的第三候选资源规模。

第三任务可以为该多个任务中的任一任务。对于该多个任务中的任一任务而言，若在步骤510中获取的该任务的运行性能数据包括任务在独占资源的情况下的运行性能，则该任务独占的资源规模即可作为该任务对应的第三候选资源规模，相应地，该任务在独占该资源的情况下的运行性能即为该任务在独占该任务对应的第三候选资源规模的情况下的运行性能。

第三候选资源规模可以包括一种，也可以包括多种。对于不同的任务而言，其对应的第三候选资源规模可以相同，也可以不同。

例如，该多个任务可以包括任务#1和任务#2。任务#1对应的候选资源规模包括两个单位资源和三个单位资源。任务#2对应的候选资源规模包括两个单位资源。在步骤510中获取的多个任务的运行性能数据包括任务#2在独占两个单位资源的情况下的运行性能。在该情况下，任务#2对应的第三候选资源规模可以为两个单位资源。任务#1在独占两个单位资源和三个单位资源的情况下的运行性能可以通过其他方式确定，在该情况下，任务#1对应的候选资源规模不包括任务#3对应的第三候选资源规模。

第一任务、第二任务和第三任务可以相同，也可以不同。

换言之，对于一个任务而言，可以采用上述三种示例中部分或全部的方式确定该任务在独占该任务对应的候选资源规模的情况下的运行性能。例如，若采用上述三种示例确定该任务在独占该任务对应的候选资源规模的情况下的运行性能，则该任务对应的候选资源规模包括该任务对应的第一候选资源规模，该任务对应的第二候选资源规模，和该任务对应的第三候选资源规模，分别采用对应的方式确定该任务在独占该任务对应的候选资源规模的情况下的运行性能。

应理解，以上仅为示例，步骤520还可以通过其他方式实现。具体描述可以参考后文中的方法600，此处不展开描述。

示例性地，多个任务在独占多个任务对应的候选资源规模的情况下的运行性能可以通过该多个任务的性能矩阵表示。

该多个任务的性能矩阵中的不同位置处的元素可以用于表示该位置所对应的任务在独占该位置所对应的资源规模的情况下的运行性能。

示例性地，步骤530可以由图4中的资源分配器440执行。

步骤530可以包括：根据多个任务在独占多个任务对应的目标候选资源规模的情况下的运行性能确定目标资源分配方案。多个任务对应的候选资源规模包括多个任务对应的目标候选资源规模。

每个任务对应的目标候选资源规模可以包括一种，也可以包括多种。对于不同的任务而言，其对应的目标候选资源规模可以相同，也可以不同，其对应的目标候选资源规模的确定方式可以相同，也可以不同。

每个任务对应的目标候选资源规模可以为每个任务对应的所有候选资源规模中的部分资源规模。

换言之，每个任务对应的候选资源规模可以为每个任务对应的所有候选资源规模中的部分资源规模。为了便于描述，在本申请实施例中，将该部分资源规模称为目标候选资源规模。

若每个任务对应的候选资源规模较多，则该多个任务对应的候选资源规模的组合较多，确定目标资源分配方案时所涉及的计算量可能过大，影响资源分配的效率。本申请实施例提供了如下方案以便从候选资源规模中确定部分资源规模，减少了资源规模的组合的数量，即减少了后续目标资源分配过程中的搜索空间，有利于提高资源分配的效率。

可选地，多个任务中的第四任务在独占第四任务对应的目标候选资源规模的情况下的运行性能满足预设条件#1，该多个任务中的第五任务对应的目标候选资源规模满足预设条件#2，或者，该多个中的第六任务对应的目标候选资源规模和第六任务在独占第六任务对应的目标候选资源规模的情况下的运行性能满足预设条件#3(第一预设条件的一例)。

第四任务、第五任务和第六任务可以相同，也可以不同。

预设条件可以根据需要设置。对于不同的任务而言，预设条件可以相同，也可以不同。

下面对预设条件#1进行示例性说明。

可选地，预设条件#1可以包括：第四任务在独占第四任务对应的目标候选资源规模的情况下的运行性能大于或等于阈值#1。

第四任务可以为该多个任务中的任一任务。第四任务与第一任务、第二任务、第三任务可以相同，也可以不同。

示例性地，阈值#1可以是人为设定的，或者，阈值#1也可以是预先设置的。

在一个任务对应的候选资源规模中，若任务在独占一个候选资源规模的情况下的运行性能大于或等于阈值#1，则该候选资源规模可以作为该任务对应的目标候选资源规模。

该多个任务中的其他任务对应的目标候选资源规模也可以参考第四任务对应的目标候选资源规模确定。

可选地，该多个任务在独占该多个任务对应的目标候选资源规模的情况下的运行性能大于或等于阈值#1。

应理解，以上仅为示例。例如，在实际应用中，还可以为各个任务设置不同的阈值#1。本申请实施例对此不做限定。

在本申请实施例中，可以基于任务的运行性能确定目标候选资源规模，将较高的运行性能对应的候选资源规模作为目标候选资源规模，有利于在后续的资源分配中为任务分配合适的资源以保证任务的运行性能。

以上仅为对预设条件#1的示例，在其他可能的场景中，预设条件#1还可以为其他与任务的运行性能相关的条件。

下面对预设条件#2进行示例性说明。

可选地，预设条件#2可以包括：第五任务对应的目标候选资源规模大于或等于阈值#2。

第五任务可以为该多个任务中的任一任务。第五任务与第一任务、第二任务、第三任务可以相同，也可以不同。

对于一个任务而言，若一个候选资源规模大于或等于阈值#2，则该候选资源规模可以作为该任务对应的目标候选资源规模。

示例性地，阈值#2可以是人为设定的，或者，阈值#2也可以是预先设置的。

该多个任务中的其他任务对应的目标候选资源规模也可以参考第五任务对应的目标候选资源规模确定。

可选地，该多个任务对应的目标候选资源规模大于或等于阈值#2。

应理解，以上仅为示例。例如，在实际应用中，还可以为各个任务设置不同的阈值#2。本申请实施例对此不做限定。

当任务对应的候选资源规模较小时，任务的并行效率较低，影响该多个任务的整体运行性能。根据本申请实施例的方案，避免将过低的候选资源规模作为目标候选资源规模，有利于后续为任务分配合适的资源以保证任务的并行效率。

以上仅为对预设条件#2的示例，在其他可能的场景中，预设条件#2还可以为其他与候选资源规模相关的条件。

下面对预设条件#3进行示例性说明。

可选地，预设条件#3包括：第六任务在独占第六任务对应的目标候选资源规模的情况下的运行性能与第六任务对应的目标候选资源规模之间的比值大于或等于阈值#3(第一阈值的一例)。

第六任务可以为该多个任务中的任一任务。第六任务与第一任务、第二任务、第三任务可以相同，也可以不同。

对于一个任务而言，该任务在独占该任务对应的资源规模的情况下的运行性能与该资源规模之间的比值可以称为资源效率，即任务对资源规模的利用效率。阈值#3可以作为效率阈值，即任务对资源规模的利用效率的阈值。在一个任务对应的候选资源规模中，若一个候选资源规模对应的资源效率大于或等于效率阈值，则该候选资源规模可以作为该任务对应的目标候选资源规模。

示例性地，阈值#3可以是人为设定的，或者，阈值#3也可以是预先设置的。

通常随着给任务分配的资源规模的增加，任务的资源效率会逐渐降低。示例性地，资源效率明显降低前后对应的资源效率可以作为效率阈值。

该多个任务中的其他任务对应的目标候选资源规模也可以参考第六任务对应的目标候选资源规模确定。

可选地，每个任务在独占每个任务对应的候选资源规模中的部分资源规模的情况下的运行性能与每个任务对应的候选资源规模中的部分资源规模之间的比值大于或等于阈值#3。

换言之，该多个任务在独占该多个任务对应的目标候选资源规模的情况下的运行性能与该多个任务对应的目标候选资源规模之间的比值大于或等于阈值#3。

应理解，以上仅为示例。例如，在实际应用中，还可以为各个任务设置不同的效率阈值。本申请实施例对此不做限定。

在一定范围内，任务的运行性能会随着为该任务分配的资源规模的增大而显著提高，但在为该任务分配的资源规模达到一定的阈值后，任务的运行性能不会再明显增加，即任务的资源效率降低。当资源效率较低时，会导致资源浪费。本申请实施例中，基于该任务在独占该任务对应的资源规模的情况下的运行性能与该资源规模确定目标候选资源规模，有利于避免在后续的资源分配中为任务分配过多的资源，从而导致资源浪费。例如，在本申请实施例中，可以基于任务在独占该任务对应的资源规模的情况下的运行性能与该资源规模之间的比值，即任务的资源效率，确定目标候选资源规模，将较高的资源效率对应的候选资源规模作为目标候选资源规模，避免在后续的资源分配中为任务分配过多的资源，从而导致资源浪费。

以上仅为对预设条件#3的示例，在其他可能的场景中，预设条件#3还可以为其他与任务的运行性能以及任务对应的候选资源规模相关的条件。

示例性地，在步骤530中，可以枚举多个资源规模组合中的每个资源规模组合下的所有资源分配方案，计算所有资源分配方案下的该多个任务的整体运行性能，进而求出最优解。最优解指的是使得该多个任务的整体运行性能最优的资源分配方案，该最优解可以作为目标资源分配方案。该多个资源规模组合基于该多个任务对应的目标候选资源规模的组合确定。

在资源规模组合的数量较多时，该方式的复杂度较高，运行时间较长。本申请实施例提供了如下方案来确定目标资源分配方案，有利于在较短的时间内得到较合理的目标资源分配方案，从而保证该多个任务的整体运行性能。

可选地，步骤530可以通过如下步骤实现。

步骤531，根据该多个任务中的每个任务在独占每个任务对应的目标候选资源规模的情况下的运行性能确定多种资源规模组合下的目标候选资源分配方案。该多种资源规模组合基于该多个任务对应的目标候选资源规模的组合确定。多种资源规模组合中的每种资源规模组合下的目标候选资源分配方案指示每种资源规模组合下多个任务中的每个任务对应的目标候选资源。

步骤532，确定该多种资源规模组合中的每种资源规模组合下的目标候选资源分配方案对应的该多个任务的波动系数。每种资源规模组合下的目标候选资源分配方案对应的多个任务的波动系数分别用于指示该多个任务在每种资源规模组合下的目标候选资源分配方案下并行执行的运行性能与该多个任务在独占每种资源规模组合中的每个任务对应的资源规模的情况下的运行性能之间的差异。

每种资源规模组合中的每个任务对应的资源规模，即为，每种资源规模组合中的每个任务对应的目标候选资源规模。

步骤533，根据每种资源规模组合下的目标候选资源分配方案对应的该多个任务的波动系数和该多个任务在独占每种资源规模组合中的每个任务对应的目标候选资源规模的情况下的运行性能分别预测该多个任务在每种资源规模组合下的目标候选资源分配方案下并行执行的运行性能。

步骤534，根据该多个任务在多种资源规模组合下的目标候选资源分配方案下并行执行的运行性能从多种资源规模组合下的目标候选资源分配方案中确定目标资源分配方案。

示例性地，该多种资源规模组合包括该多个任务对应的目标候选资源规模的组合。从每个任务对应的所有目标候选资源规模中分别选择一个目标候选资源规模，即构成了一个资源规模组合。换言之，一个资源规模组合可以包括每个任务对应的一个目标候选资源规模。

在步骤531中可以分别确定每种资源规模组合下的目标候选资源分配方案。

步骤531可以包括：根据该多个任务中的每个任务在独占每个任务对应的目标候选资源规模的情况下的运行性能分别从多个资源规模组合下的候选资源分配方案中确定多种资源规模组合下的目标候选资源分配方案。

示例性地，该多个任务在每种资源规模组合下的目标候选资源分配方案下独占每种资源规模组合中的每个任务对应的目标候选资源规模的情况下的整体运行性能优于多个任务在每种资源规模组合下的其他候选资源分配方案下独占每种资源规模组合中的每个任务对应的目标候选资源规模的情况下的整体运行性能。

换言之，对于该多种资源规模组合中的一种资源规模组合而言，可以从该资源规模组合下的候选资源分配方案中选择该资源规模组合下的目标候选资源分配方案。该资源规模组合下的目标候选资源分配方案可以为该资源规模组合下的所有候选资源分配方案中的最优候选资源分配方案。最优候选资源分配方案即为使得该多个任务在独占该资源规模组合中的各个任务对应的目标候选资源规模的情况下的整体运行性能最优的候选资源分配方案。

一种资源规模组合下的候选资源分配方案可以包括满足该资源规模组合的所有资源分配方案。换言之，一个资源规模组合下的候选资源分配方案所指示的各个任务对应的资源规模与该资源规模组合一致。

对于每种资源规模组合而言，该资源规模组合下的目标候选资源分配方案可以为，该资源规模组合下的所有候选资源分配方案中使得该多个任务在独占资源时的整体运行性能最优的候选资源分配方案。

可选地，每组资源规模组合下的候选资源分配方案所指示的每个任务对应的候选资源连续。

候选资源分配方案所指示的各个任务对应的资源可以是连续的。在该情况下，每个任务对应的资源可以由该任务对应的资源的起始位置以及该任务对应的资源规模指示。

例如，各个资源规模组合下的目标候选资源分配方案可以通过装箱算法确定。具体描述可以参考方法600中的相关描述。

示例性地，步骤531可以利用装箱的算法实现。具体描述可以参考方法600。

在步骤532中，对于每种资源规模组合而言，可以分别确定该资源规模组合下的目标候选资源分配方案对应的多个任务的波动系数。

对于一种资源规模组合而言，可以仅计算该资源规模组合下的目标候选资源分配方案对应的部分任务的波动系数。该部分任务指的是在该目标候选资源分配方案中，与其他任务共享资源的任务。例如，在目标候选资源分配方案中，为任务#1分配的资源包括进程#1，为任务#2分配的资源也包括进程#1，为任务#3分配的资源未分配给其他任务，则在目标候选资源分配方案下，可以计算其对应的任务#1的波动系数和任务#2的波动系数，而无需计算任务#3的波动系数。

其中，每个任务的波动系数用于指示该任务在该目标资源分配方案下与其他任务并行执行时的运行性能和该任务在独占该资源规模组合中的该任务对应的目标候选资源规模的情况下的运行性能之间的差异。

示例性地，每种资源规模组合下的目标候选资源分配方案对应的多个任务的波动系数分别用于指示该多个任务在该资源规模组合下的目标候选资源分配方案下并行执行的运行性能与该多个任务在独占该资源规模组合中的该多个任务对应的目标候选资源规模的情况下的运行性能之间的比值。

换言之，对于一个任务而言，每种资源规模组合下的目标候选资源分配方案对应的该任务的波动系数用于指示该任务在该目标候选资源分配方案下和其他任务并行执行时的运行性能与该任务在独占该资源规模组合中的该任务对应的目标候选资源规模的情况下的运行性能之间的比值。

可选地，步骤532包括：根据多个任务的波动系数模型确定该多种资源规模组合中的中的每种资源规模组合下的目标候选资源分配方案对应的多个任务的波动系数。

如前所述，对于一个任务而言，该任务的波动系数模型可以用于预测输入至该波动系数模型的资源分配方案对应的该任务的波动系数。

对于每种资源规模组合而言，将该资源规模组合下的目标候选资源分配方案分别输入至多个任务的波动系数模型中，即可得到该目标候选资源分配方案对应的多个任务的波动系数。

具体地，步骤533可以包括：根据多种资源规模组合中的每种资源规模组合下的目标候选资源分配方案对应的多个任务的波动系数和该多个任务在独占每种资源规模组合中的每个任务对应的目标候选资源规模的情况下的运行性能确定多个任务在每种资源规模组合下的目标候选资源分配方案下并行执行的运行性能；根据该多个任务在多种资源规模组合下的目标候选资源分配方案下并行执行的运行性能确定该多个任务在多种资源规模组合对应的目标候选资源分配方案下并行执行的整体运行性能。

如前所述，对于每种资源规模组合而言，一个任务的波动系数用于指示该任务在该目标资源分配方案下与其他任务并行执行时的运行性能和该任务在独占该资源规模组合中的该任务对应的目标候选资源规模的情况下的运行性能之间的差异。根据该任务的波动系数和该任务在独占该任务对应的目标资源规模的情况下的运行性能即可计算出该任务在该目标资源分配方案下与其他任务并行执行时的运行性能。基于该多个任务在该目标资源分配方案下并行执行的运行性能可以确定该多个任务在该目标资源分配方案下并行执行的整体运行性能。

示例性地，在步骤534中，可以将整体运行性能最优的目标候选资源分配方案作为目标资源分配方案。

可选地，该每个任务对应的目标资源包括每个任务对应的一个或多个进程。该一个或多个进程分别与一个或多个slot绑定。

在相关方案中，将任务分配至算力节点后，可以由算力节点为任务分配处理器核，从而实现任务的计算。然而算力节点内没有全局信息，即算力节点内没有全部可用资源的信息，该相关方案难以得到最优的资源分配方案。在本申请实施例的方案中，将进程与slot绑定，或者说，将进程与处理器核绑定，可以在全局范围内实现进程的分配，也即实现全局范围内的处理器核的分配，有利于得到最优的资源分配方案。同时本申请实施例的方案，将进程与处理器核绑定，实现了精细化的算力分配，无需算力节点内核的二次调度，即无需由算力节点为进程调度处理器核，避免了二次调度所带来的开销。

可选地，每个任务对应的目标资源包括每个任务对应的一个或多个进程。该多个进程分别与多个连续的slot绑定。

多个slot为多个连续的slot指的是该多个slot的编号连续。

可选地，该多个进程为多个连续的进程。该多个slot为多个连续的slot。

可选地，方法500还包括：输出该目标资源分配方案的指示信息。

图6示出了本申请实施例提供的一种资源分配的方法的示意性流程图。图6所示的方法600可以视为图5所述的方法500的一种具体实现方式。相关描述可以参考方法500，为避免重复，在描述方法600时适当省略部分描述。方法600可以由资源分配的装置执行。该装置可以作为一个模块部署于应用中，或者，部署于应用以外，例如，部署于计算资源的管理和控制系统中。

如图6所示，方法600包括以下步骤。

步骤610，获取应用的相关信息。应用的相关信息包括应用中的多个功能模块的信息和可用资源的信息。

示例性地，用户可以提交应用的处理请求。资源分配的装置可以获取该应用的相关信息。

应用中的多个功能模块的信息可以用于指示该应用中的多个功能模块或该应用中的功能模块的数量。

应用中的功能模块指的是当前应用的执行过程中启用的功能模块。应用中的多个功能模块分别对应方法500中的多个任务。为了便于理解，在方法600中，将方法500中的任务替换为功能模块来进行描述。

可用资源的信息用于指示可用资源或可用资源的规模。例如，可用资源的信息可以由硬件参数表示。

示例性地，可用资源的规模可以为可用的算力节点的数量。

示例性地，可用资源的规模可以为可用的处理器的数量。

示例性地，可用资源的规模可以为可用的处理器核的数量。

此外，应用的相关信息还可以包括其他内容，例如，应用的相关信息还可以包括应用架构的信息。应用架构的信息可以用于指示应用中的功能模块的耦合方式。再如，应用的相关信息还可以包括用户的信息。

以CESM应用为例，CESM的相关信息可以包括CESM中启用的功能模块的数量、可用的处理器核的数量以及CESM的模拟时间等。

步骤610对应于方法500中的步骤501。具体描述可以参考步骤501的相关描述，此处不再赘述。

步骤620，获取该应用的多个应用实例的运行性能数据。该多个应用实例的运行性能数据包括该多个功能模块的运行性能数据。

该多个应用实例的运行性能数据可以包括该多个应用实例在多种样本资源规模组合下的运行性能数据。或者说，该多个应用实例可以为多种样本资源规模组合下的应用实例。

样本资源规模组合可以包括该多个功能模块对应的样本资源规模的组合。

资源分配方案用于指示功能模块对应的资源，即为功能模块分配的资源。不同的资源规模组合下的资源分配方案不同。该多个应用实例的运行性能数据包括该多个应用实例在多种样本资源规模组合下的运行性能数据也可以理解按照如下方式理解。该多个应用实例的运行性能数据可以包括该多个应用实例在多种资源分配方案下的性能数据，该多种样本资源分配方案所指示的各个功能模块对应的资源规模的组合包括多种样本资源规模组合。

示例性地，样本资源分配方案可以用于指示各个功能模块的进程分配情况。

例如，为每个功能模块分配的进程可以是连续的。为每个功能模块分配的进程可以由为该功能模块分配的起始进程的ID和终止进程的ID表示。或者，为每个功能模块分配的进程可以由为该功能模块分配的起始进程的ID和为该功能模块分配的进程的数量表示。或者，为每个功能模块分配的进程还可以通过其他参数表示。

样本资源规模可以由资源参数表示，相应地，样本资源规模组合可以由资源参数组合表示。多种样本资源规模可以表示为多种资源参数组合。资源参数组合用于指示分配给各个功能模块的资源的参数。

以CESM为例，CESM启动的功能模块可以包括ATM和OCN。ATM和OCN的样本资源规模组合可以由用于指示分配给ATM和OCN的资源的参数的组合表示。例如，用于指示分配给ATM的资源的参数可以为分配给ATM的进程的数量NATM，用于指示分配给OCN的资源的参数可以为分配给OCN的进程的数量NOCN。样本资源规模组合可以表示为资源参数组合(NATM，NOCN)。

示例性地，步骤620可以通过如下步骤实现。

621，确定多种样本资源规模组合。

示例性地，基于应用的相关信息获取该应用的默认资源规模组合。基于应用的默认资源规模组合确定该多种样本资源规模组合。样本资源规模可以由资源参数表示，相应地，样本资源规模组合可以由资源参数组合表示。

默认资源规模组合可以作为性能分析的基线与依据。

例如，从应用的默认资源规模组合的邻域中选取资源规模组合，和默认资源规模组合共同构成该多种样本资源规模组合。该过程可以称为参数扩增。

示例性地，该默认资源规模组合可以是用户指定的。例如，用户可以指示各个功能模块对应的默认资源规模，各个功能模块对应的默认资源规模的组合可以作为默认规模组合。

可替换地，该默认资源规模组合可以是预先设定的。

可替换地，该默认资源规模组合也可以是资源分配的装置基于其他相关方案确定的。

例如，资源分配的装置基于通用算法确定默认资源规模组合。

示例性地，默认资源规模组合的邻域可以包括与默认资源规模组合中的对应默认资源规模之间的差值小于或等于z的资源规模构成的组合。Z即为前文中的规模阈值。即与各个功能模块对应的默认资源规模之间的差值在z以内的资源规模构成的参数组合。z为正整数。比如，z＝3。

例如，资源规模组合可以为分配给各个功能模块的进程数量的组合。默认资源规模组合即为分配给各个功能模块的默认的进程数量的组合。以CESM为例，CESM启动的功能模块可以包括ATM和OCN，资源规模组合可以为分配给ATM和OCN的进程数量的组合。比如，默认资源规模组合可以表示为(5,5)，即默认分配给ATM的进程数量为5，默认分配给OCN的进程数量为5。该默认资源规模组合的邻域可以包括与默认分配给各个模块的进程数量相差3个进程的进程数量构成的组合。从默认资源规模组合的邻域选择的资源规模组合可以包括(4,7)和(6,3)。该多种样本资源规模组合可以包括(5,5)、(4,7)和(6,3)。

应理解，以上仅为示例，该多种样本资源规模组合还可以通过其他方式确定。例如，该多种样本资源规模组合可以是随机确定的。或者，该多种样本资源规模组合可以是用户确定的。

622，获取该多种样本资源规模组合下的多个应用实例的运行性能数据。

换言之，获取符合该多种样本资源规模组合中的样本资源规模的应用实例的运行性能数据。

以CESM为例，基于步骤621确定的多种样本资源规模组合可以包括(5,5)、(4,7)和(6,3)。在步骤622中可以获取符合(5,5)、(4,7)和(6,3)中样本资源规模的应用实例的运行性能数据。

例如，ATM被分配了5个进程的应用实例即可作为该多个应用实例中的一个应用实例。

示例性地，可以通过以下至少一种方式实现步骤622：

(1)从该应用的历史数据中获取运行性能数据。

在该应用的历史数据中，采集符合该多种样本资源规模组合的应用实例的运行性能数据。

换言之，在该应用的历史数据中，若一个应用实例所采用的资源规模组合属于该多种样本资源规模组合，则该应用实例的运行性能数据可以作为步骤620中的多个应用实例的运行性能数据。

(2)从正在执行的应用实例的监控数据中获取运行性能数据。

从正在执行的应用实例中，采集符合该多种样本资源规模组合的应用实例的运行性能数据。

换言之，对于正在执行的应用实例，若一个应用实例采用的资源规模组合属于该多种样本资源规模组合，则可以从该应用实例的监控数据中获取其运行性能数据，作为步骤620中的多个应用实例的运行性能数据。

(3)在多种样本资源规模组合下预执行该应用。从监控数据中获取该多种样本资源规模组合下的多个应用实例的运行性能数据。

基于一种样本资源规模组合为各个功能模块分配资源，在该资源下预执行一段时间，从监控数据中获取到的运行性能数据可以作为该样本资源规模组合下的应用实例的运行性能数据。

上述三种方式可以独立使用，或者，也可以结合使用。例如，该多种样本资源规模组合中的部分样本资源规模组合下的应用实例的运行性能数据是从历史数据中获取的，其余样本资源规模组合下的应用实例的运行性能数据可以是通过在对应的样本资源规模组合下预执行该应用得到的。

应理解，上述三种方式仅为示例，不对本申请实施例的方案构成限定。

示例性地，应用实例的性能数据可以包括以下至少一项：运行时间、响应时延或资源利用率等。为了便于理解，方法600中主要以运行时间为例进行说明，不对本申请实施例的方案构成限定。运行时间可以包括应用的运行时间和应用中的各个功能模块的运行时间。

步骤620对应于方法500中的步骤510，具体描述可以参考步骤510的相关描述，此处不再赘述。

步骤630，基于该多个应用实例的性能数据进行性能分析，以得到各个功能模块在独占资源的情况下的运行性能。

不同的应用在执行过程中具有不同的行为特点。应用的行为特点也可以称为应用的性能特性。例如，给定相同的资源，不同的应用的运行性能是不同的。再如，给定的资源增加时，通常应用的运行性能会提高，但不同的应用的运行性能提高的程度是不同的。应用的行为特点可以由应用实例的性能数据和应用实例的功能逻辑确定。应用实例的功能逻辑即为应用实例中启用的功能模块。

在步骤630中可以基于该多个应用实例的性能数据进行性能建模，以得到应用的性能模型。或者说，在步骤630中可以基于该多个应用实例的性能数据和多个应用实例的功能逻辑进行性能建模，以得到应用的性能模型。应用的性能模型可以用于指示给定应用的资源与该资源下应用的运行性能之间的映射关系。即在步骤630中构建资源与应用的运行性能之间的关系，分析应用的行为特点。

这样，可以在不同的场景下为应用自适应地分配合适的算力资源，或者说，在不同的场景下为应用提供合适的资源分配方案。

示例性地，步骤630可以通过以下步骤实现。

步骤631，构建应用模型。应用模型用于指示应用的整体运行性能与应用的多个功能模块的运行性能之间的关系。

换言之，应用模型可以用于预测应用的整体运行性能。应用模型的输入可以为不同的资源分配方案下的各个功能模块的运行性能，应用模型的输出即为由应用模型预测得到的对应的资源分配方案下的应用的整体运行性能。应用模型预测得到的应用的整体运行性能和应用的实际整体运行性能之间的比较可以用于衡量应用模型的建模准确度。

应用的整体运行性能即为应用的多个功能模块在并行执行时的整体运行性能。

下面以运行性能为运行时间为例对应用模型的构建方法进行示例性说明。

可选地，应用模型可以满足如下公式：

其中，T_tot表示应用的运行时间，T_i表示功能模块i的运行时间。C表示功能模块的集合。r_i表示功能模块i的起始进程的ID。n_i表示功能模块i使用的进程的数量。n_i为整数。单线程中功能模块i分配的资源可以包括ID属于[r_i,r_i+n_i-1]的进程。N表示应用需要调用的总进程数，j表示进程的ID。

每个进程可能分配给一个或多个功能模块。示例性地，应用需要调用的总进程数可以满足如下公式：

f(r,n)表示耦合函数之间的通信代价函数，用于确定为给定资源分配方案下各个功能模块之间的通信代价。f(r,n)的函数值与资源分配方案方式相关，具体地，与各个功能模块和耦合模块的资源的相对位置强相关。r表示各个功能模块的起始进程构成的向量，n表示各个功能模块使用的进程数构成的向量。f(r,n)通常很小。ε表示用户提交应用后系统的资源协调与初始化时间。

H(x)为海维赛德阶跃函数(Heaviside step function)。H(x)可以满足如下公式：

应理解，以上仅为示例，应用模型还可以表示为其他的形式，本申请实施例对此不做限定。

步骤632，构建应用的多个功能模块的性能模型，确定该多个功能模块之间的干扰情况。

示例性地，功能模块的性能模块可以为功能模块的第一性能模型。每个功能模块的第一性能模型可以用于预测该功能模块在独占输入至该第一性能模型的资源规模的情况下的运行性能。

示例性地，功能模块的性能模块可以为动能模块的第二性能模型。每个功能模块的第二性能模型可以用于预测该功能模块在输入至第二性能模型的资源分配方案下与其他功能模块并行执行时的运行性能。

示例性地，各个功能模块之间的干扰情况可以由各个功能模块的波动系数指示。不同的资源分配方案下，各个功能模块之间的干扰情况可能不同。相应地，不同的资源分配方案下，同一个功能模块的波动系数也可能不同。

各个功能模块的波动系数可以通过各个功能模块的波动系数模型确定。各个功能模块的波动系数模型可以用于指示资源分配方案与该功能模块的波动系数之间的关系。

在该情况下，应用的性能模型可以包括应用模型、各个模块的性能模型以及各个功能模块的波动系数模型。

下面以运行性能为运行时间为例对功能模块的性能模型进行示例性说明。

功能模块i的第二性能模型可以满足如下公式：
T_i＝γ_i(T_i,init+T_i,comp+T_i,comm)；

功能模块i的第一性能模型可以满足如下公式：
T_i′＝T_i,init+T_i,comp+T_i,comm；

其中，γ_i表示功能模块i在给定资源分配方案下的波动系数。T_i,init表示初始化时间。T_i,comp表示计算时间，T_i,comm表示通信时间。功能模块i在独占资源的情况下的运行时间T_i'可以包括T_i,init、T_i,comp和T_i,comm三部分。由于功能模块i可能与其他功能模块抢占资源，功能模块i的运行时间_Ti需要考虑波动系数γ_i，即将该波动系数γ_i乘以在独占资源的情况下的运行时间以得到功能模块i的运行时间T_i。

T_i,init可以满足如下公式：
T_i,init＝α_i,1n_i+α_i,2；

其中，α_i,1和α_i,2为系数。α_i,1和α_i,2表明初始化时间由与功能模块i使用的进程的数量相关的部分和无关的部分构成。α_i,1＞0。α_i,2＞0

T_i,comp可以满足如下公式：

其中，W_i表示功能模块i的总负载。根据阿姆达尔定律(Amdahl's Law)，计算任务可以分为可并行部分和不可并行部分。a_i表示可并行部分所占的比例。p表示处理器性能，此处可以假设处理器性能一致。0≤a_i≤1。W_i＞0。p＞0。

T_i,comm可以满足如下公式：
T_i,comm＝β_ilog n_i；

其中，β_i表示通信延迟。此处假设主要通过全局通信完成功能模块内部的信息传递，主要使用树规约方法，时间复杂度为logn_i。β_i＞0。

γ_i可以由功能模块包含进程负载的调和平均数确定。γ_i＞1。γ_i可以满足如下公式：

上述公式可以作为功能模块i的波动系数的模型。

其中，L_j可以满足如下公式：

L_j表示第j个进程的负载。

基于该多个应用实例的性能数据可以对上述模型拟合模型的相关系数。例如，可以基于获取的各个功能模块的运行时间确定功能模块i的性能模型以及波动系数模型中的相关系数。

应理解，以上各个模型即为示例，上述模型还可以表示为其他形式，例如，神经网络模型等。

步骤633，基于应用的多个功能模块的性能模型预测该多个功能模块在独占资源时的运行性能。

换言之，基于应用的多个功能模块的性能模型预测该多个功能模块在独占该多个功能模块对应的候选资源规模的情况下的运行性能。

示例性地，步骤633可以包括基于应用的多个功能模块的第一性能模型预测该多个功能模块在独占资源时的运行性能。

示例性地，步骤634可以包括基于应用的多个功能模块的第二性能模型和多个功能模块之间的干扰情况预测该多个功能模块在独占资源时的运行性能。

示例性地，该多个功能模块在独占资源时的运行性能可以由该多个功能模块的性能矩阵表示。该性能矩阵用于表示在不同的功能模块在独占不同的资源时的运行性能。该性能矩阵的维度可以为|C|×N，其中，|C|表示该多个功能模块的数量。该性能矩阵的一行对应一个功能模块，该性能矩阵中的一列对应一个资源规模，例如，进程的数量。性能矩阵的每个元素即表示该元素所在行对应的功能模块在独占该元素所在的列对应的资源规模的情况下的运行性能。该多个功能模块对应的候选资源规模即为该性能矩阵中的资源规模。

预测该多个功能模块在独占该多个功能模块对应的候选资源规模的情况下的运行性能即为预测该多个模块的性能矩阵的元素。

下面对该性能矩阵中的元素的确定方式进行示例性说明。

如前所述，多个应用实例的运行性能数据包括多种样本资源规模组合下的多个应用实例的运行性能数据。

若该多个应用实例的运行性能数据中包括功能模块在独占资源时的运行性能数据，则该功能模块在独占该资源时的运行性能数据即可作为性能矩阵中该功能模块和该资源所指示的位置处的元素。该方式对应方法500中的示例3。

例如，该多个应用实例的运行性能数据包括功能模块i在独占n_i个进程时的运行性能数据，则功能模块i在独占n_i个进程时的运行性能数据可以作为性能矩阵中(i，n_i)处的元素。在该情况下，该功能模块i可以作为第三任务的一例，n_i个进程可以作为第三任务对应的第三候选资源规模的一例。

对于该多个应用实例的运行性能数据中的功能模块在非独占资源时的运行性能数据，可以通过上述功能模块的波动系数模型计算出该功能模块的波动系数，基于该波动系数进行性能反解，以预测该功能模块在独占资源的情况下的运行性能。预测得到的该功能模块在独占资源的情况下的运行性能即可作为性能矩阵中该功能模块和该资源所指示的位置处的元素。该方式对应方法500中的示例2。

例如，该多个应用实例的运行性能数据包括功能模块i在非独占n_i个进程时的运行性能数据。功能模块i对应的样本资源由样本资源分配方案指示，在该样本资源分配方案中，该n_i个进程中至少有一个进程被同时分配给其他功能模块。基于该样本资源分配方案计算该功能模块的波动系数，对功能模块i在非独占n_i个进程时的运行性能数据进行性能反解，得到的结果可以作为性能矩阵中(i，n_i)处的元素。在该情况下，该功能模块i可以作为第二任务的一例，n_i个进程可以作为第二任务对应的第二候选资源规模的一例。

对于性能矩阵中的除了该多个样本资源规模组合对应的位置以外的其他位置处的元素，可以采用各个功能模块的性能模型预测各个功能模块在独占资源时的运行性能。该方式对应方法500中的示例1。

由于各个功能模块的性能模型是基于多个样本资源规模组合下的多个应用实例的性能数据拟合得到的，利用各个功能模块的性能模型预测各个功能模块在该多个样本资源规模组合周围的参数下的运行性能的准确度更高。因此，可以仅基于各个模块的性能模型预测各个功能模块在该多个样本资源规模组合周围的参数下的运行性能。

对于性能矩阵中其他未补全的部分，可以通过矩阵补全的方式进行修复填充。

不同的功能模块的运行时间的情况存在相似性，去除波动系数的影响后的性能矩阵本身是低秩的。

示例性地，可以通过求解以下最小化问题得到完整的性能矩阵。

minimize ||Z||_*；

其中，X_ab表示性能矩阵中观测到的位置(a,b)上的数值，Ω表示位置的集合。Z表示原始矩阵，||Z||_*表示Z的核范数，Z_ab表示原始矩阵Z中位置(a,b)，δ表示一个小量。

应理解，以上确定性能矩阵中的元素的方式仅为示例，不对本申请实施例的方案构成限定。

步骤640，基于各个功能模块在独占资源的情况下的运行性能确定目标资源分配方案。

该目标资源分配方案用于指示各个功能模块对应的目标资源。或者说，该目标资源分配方案用于指示为各个功能模块分配的目标资源。

示例性地，步骤640可以通过如下步骤实现。

641，确定可行的资源规模组合。

示例性地，可行的资源规模组合可以通过枚举性能矩阵中的所有的候选资源规模的组合确定。

该方式的枚举空间过大，在后续处理过程中难以高效地从中确定目标资源分配方案。

本申请实施例提供了一种基于搜索剪枝的方案，该方案能够较快速地确定可行的资源规模组合。具体地，该方案通过剪枝处理减小了后续确定目标资源分配过程中的搜索空间，提高搜索效率，从而快速确定目标资源分配方案。

对于性能矩阵中的每个功能模块(即每一行元素)全局搜索执行剪枝操作。遍历所有功能模块，完成剪枝操作。

示例性地，基于性能矩阵中的元素的资源模块效率执行剪枝操作。当元素的资源模块效率低于效率阈值时，对该元素进行剪枝。剪枝操作后的性能矩阵中的元素所在行对应的功能模块即为方法500中的第六任务，该元素所在列对应的资源规模即为第六任务对应的目标候选资源规模。

当元素的资源模块效率低于效率阈值时可以认为该模块在当前的资源下的资源利用效率较低，导致资源浪费，可以去除该元素。

每个元素的资源模块效率，即功能模块的运行性能和资源的规模之间的比值。

进一步地，基于性能矩阵中的元素对应的资源规模执行剪枝操作。当元素对应的资源规模较小时，任务的并行效率较低，影响该多个任务的整体运行性能，可以去除该元素。

应理解，以上剪枝方式仅为示例，其他方案可以参考方法500，此处不再赘述。

下面结合图7对性能矩阵的处理流程进行示例性说明。

通过采样的方式获取多种样本资源规模组合下的应用实例的性能数据。计算各个功能模块的波动系数，进行性能反解，以得到各个功能模块在独占对应资源的情况下的运行性能，作为性能矩阵上的采样点。然后通过应用内部特性拟合，即通过各个功能模块的性能模型预测采样点周围的运行性能，以得到性能矩阵上的拟合点。预测采样点周围的运行性能，也可以称为，在采样点周围内插或外拓。如图7所示，仅在采样点周围内插或外拓，这样有利于保证预测的运行性能的准确性。对当前的性能矩阵中缺失的元素通过矩阵补全的方式完成修复，即得到性能矩阵上的补全点。然后对性能矩阵中的剪枝点进行剪枝处理，筛选出各个功能模块对应的目标候选资源规模。例如，剪枝点可以是基于边际效应确定的，即基于效率阈值确定的。各个功能模块对应的目标候选资源规模的组合可以作为可行的资源规模组合。

642，基于可行的资源规模组合确定目标资源分配方案。

示例性地，步骤642可以包括：枚举可行的资源规模组合下的所有资源分配方案，并从中确定目标资源分配方案。

该方式的复杂度较高，所需的运行时间较长，难以高效地从中确定目标资源分配方案。

本申请实施例提供了一种利用装箱的算法的分配方式，能够实现资源的高效分配。

根据剪枝后的性能矩阵遍历可行的资源规模组合，对于其中的每一种资源规模组合，执行装箱算法，以最小化装箱的总体高度。由此可以得到各个功能模块对应的资源的位置，从而确定该资源规模组合下的最优资源分配方案。通过各个功能模块的波动系数还原得到各个功能模块非独占资源时的运行时间，以确定应用的整体运行时间。

示例性地，对于每一种资源规模组合，执行快速二维初配递减高度(two-dimension first-fit decreasing height，2D-FFDH)装箱算法改进，正向装箱一次再反向装箱，以两层为一组，复杂度为nlogn，n表示箱子的数量，即本申请实施例中的功能模块的数量，以最小化装箱的总体高度。

下面以可行的资源规模组合中的一种资源规模组合为例进行示例性说明。

例如，如图8所示，应用可以包括5个功能模块。可行的资源规模组合即为剪枝后的性能矩阵中该5个功能模块对应的目标候选资源规模的组合。

基于性能矩阵中的对应元素将每个功能模块抽象为矩阵。矩阵的宽度对应于该资源规模组合中分配给该功能模块的资源规模，矩阵的长度对应于该功能模块在独占该资源规模的情况下的运行时间。例如，将功能模块i抽象为矩阵，该矩阵的宽度对应于该资源规模组合中分配给该功能模块的进程数量n_i，矩阵的长度对应于性能矩阵中(i，n_i)处的值。

如图8所示，通过装箱算法将所有功能模块对应的矩阵装入资源池，以最小化总体高度。例如，资源池的宽度可以为可用的资源规模。

基于2D-FFDH装箱算法确定目标资源分配方案，可以包括如下步骤：

对于每个资源规模组合，分别执行步骤S1至步骤S4。

S1，将各个功能模块按照运行时间从高到低的顺序排列。基于该顺序放置各个功能模块。

例如，图8中的5个功能模块按照运行时间从高到低的顺序排列，得到的顺序可以为：功能模块#3，功能模块#1，功能模块#2，功能模块#4，功能模块#5。

S2，以两层为一组，从下层开始按照从左到右的顺序放置功能模块。若资源池中下层右侧的剩余空间大于或等于待放置的功能模块对应的资源的数量，则该功能模块放置在下层。计算当前下层右侧的剩余空间。若资源池中下层右侧的剩余空间小于待放置的功能模块对应的资源的数量，则该功能模块放置在上层，上层按照从右到左的顺序放置。计算当前上层左侧的剩余空间。待放置的功能模块是根据步骤S1中的各个功能模块的放置顺序确定的。剩余空间大于或等于功能模块对应的资源的数量，也即剩余空间的宽度大于或等于该功能模块对应的矩阵的宽度。剩余空间小于功能模块对应的资源的数量，也即剩余空间的宽度小于功能模块对应的矩阵的宽度。

例如，如图8所示，在下层开始先放置功能模块#3，并计算下层左侧的剩余空间。功能模块#3之后的待放置的功能模块为功能模块#1，下层右侧的剩余空间大于功能模块#1对应的资源的数量，该功能模块#1放置在下层，并计算放置功能模块#1之后下层右侧的剩余空间。功能模块#1之后的待放置的功能模块为功能模块#2。下层右侧的剩余空间小于功能模块#2对应的资源的数量，该功能模块#2放置在上层的最右侧，计算放置功能模块#2之后上层左侧的剩余空间，以此类推。

S3，若下层的剩余空间和上层的剩余空间均小于待放置的功能模块对应的资源，则再启用两层放置功能模块。重复步骤S2，直至所有功能模块完成放置，得到该资源规模组合下的目标候选资源分配方案。

S4，根据模块耦合，计算该5个功能模块的波动系数。基于各个功能模块的波动系数得到各个功能模块在非独占资源时的运行时间。基于各个功能模块在非独占资源时的运行时间确定应用的预测运行时间。

换言之，根据该资源规模组合下的目标候选资源分配方案，计算该5个功能模块的波动系数。

示例性地，在目标候选资源分配方案中，每个功能模块对应的资源可以由该功能模块对应的资源的起始位置以及该功能模块对应的资源规模指示。

示例性地，可以基于步骤631中的应用模型以及各个功能模块在非独占资源时的运行时间确定应用的预测运行时间。

S5，遍历各个资源规模组合下的应用的预测运行时间，将最小的预测运行时间对应的资源分配方案作为目标资源分配方案。

应理解，以上装箱算法仅为示例，本申请实施例对此不做限定。例如，还可以根据算法的时间要求、输出结果的精度要求等选择其他算法确定目标资源分配方案。

步骤640对应于方法500中的步骤530。具体描述可以参考步骤530的相关描述。

基于该目标资源分配方案可以将各个功能模块对应的任务分发至处理器，由处理器执行计算。

本申请实施例的方案中，进程可以与处理器核绑定。这样，可以在全局范围内搜索最优的资源分配方案，避免了算力节点内部不具备全局信息而导致无法得到最优的资源分配方案，同时本申请实施例的方案，将进程与处理器核绑定，实现了精细化的算力分配，无需算力节点内核的二次调度，即无需由算力节点为进程调度处理器核，避免了二次调度所带来的开销。

在本申请实施例的方案中，通过识别应用的行为特点，可以在全局范围内为各个功能模块计算资源，得到细粒度的资源分配方案，有利于实现应用与算力资源的最佳匹配，从而提高总体端到端的运行性能。随着应用中的并行执行的功能模块的数量的增加，本申请实施例的方案对整体运行性能的提升更加明显。

下面以CESM应用为例，对方法600进行示例性说明。

例如，CESM启用的功能模块可以包括ATM、LND、ICE、ROF、GLC、WAV、OCN以及耦合组件CPL。通过本申请实施例的方案可以为上述功能模块分配对应的进程资源。同一进程资源允许被分配给多个功能模块。

具体地，CESM的资源分配的过程可以包括如下步骤。

1)，获取CESM的相关信息。CESM的相关信息包括多个功能模块的信息和可用的资源规模的信息。

该多个功能模块的信息用于指示ATM、LND、ICE、ROF、GLC、WAV、OCN以及耦合组件CPL。

可用的资源规模的信息用于指示HPC的可用的资源。

2)，获取CESM的程序运行指令，在多种样本资源分配方案下执行CESM的短时间的预执行，以得到多个应用实例的运行性能数据。该多种样本资源分配方案指示的各个功能模块对应的样本资源规模的组合包括多种。

3)，根据该多种样本资源分配方案，分别计算各个功能模块的波动系数。

4)，基于各个功能模块的波动系数对多个应用实例的运行性能数据进行性能反解，以得到各个功能模块在独占资源时的运行时间，将其作为性能矩阵中的采样点。

5)，通过拟合插值的方式以及低秩补全的方式得到完整的性能矩阵。

6)，对该性能矩阵进行剪枝处理，以得到可行的资源规模组合。

7)，遍历可行的资源规模组合，对于每种可行的资源规模组合，通过2D-FFDH快速装箱算法确定目标候选资源分配方案；基于目标候选资源分配方案计算各个功能模块的波动系数；通过各个功能模块的波动系数计算各个功能模块在目标候选资源分配方案下并行执行时的运行时间；基于并行执行时的运行时间预测应用的整体运行时间。将遍历后得到的最优的整体运行时间对应的目标候选资源分配方案作为目标资源分配方案，例如，目标资源分配方案可以如图9所示。

8)，基于该目标资源分配方案为应用中的各个功能模块分配资源，实现该多个功能模块的并行执行。

表1示出了CESM在测试环境中的性能测试结果。如表1所示，分别基于CESM的数据集B1850G和数据集BW1850进行了性能测试。场景的分辨率(resolution，res)为f09_g17，每个进程的线程数NTHRD为1，实验模拟时间为5天。

测试环境所采用的硬件结构为非一致存储访问(non-uniform memory access，NUMA)结构节点(node)，包括：两个CPU插槽(socket),52核(52cores),768GB的随机存取存储器(random access memory，RAM)。

表1

如表1所示，本申请实施例的方案相对于相关方案的资源布局方式，性能提升30％以上。

图10示出了一个多个作业任务混合布局的批处理系统中的资源分配方案。如图10所示，该多个作业任务包括数据处理任务、解码任务、加密任务、文件整理任务和两个压缩任务。该多个作业任务可以作为方法500中的多个任务。采用本申请实施例的方案能够为该多个作业任务分配算力资源，在提高系统资源利用率的同时，优化该多个作业任务的整体运行性能，例如，该多个任务的整体运行时间。

下面将结合图11-图14描述本申请装置的实施例。应理解，方法实施例的描述与装置实施例的描述相互对应，具体描述可以参考前文中的相关描述，为了避免不必要的重复，下面在介绍装置的实施例时适当省略重复的描述。

图11是本申请实施例的资源分配的装置的示意性框图。图11所示的装置1100可以用于执行本申请实施例的资源分配的方法，例如，方法500或方法600。

如图11所示，该装置1100包括获取单元1110和处理单元1120。

在一种可能的实现方式中，获取单元，用于获取多个任务中的每个的运行性能数据，多个任务中的每个任务的运行性能数据包括每个任务在每个任务对应的样本资源规模下的运行性能；处理单元，用于：根据多个任务中的每个任务的运行性能数据确定多个任务中的每个任务在独占每个任务对应的候选资源规模的情况下的运行性能；根据多个任务中的每个任务在独占每个任务对应的候选资源规模的情况下的运行性能多个任务中的每个任务对应的目标资源。

可选地，每个任务对应的目标资源包括每个任务对应的一个或多个进程，一个或多个进程分别与一个或多个slot绑定。

可选地，多个进程为多个连续的进程，多个slot为多个连续的slot。

可选地，多个任务包括第一任务，处理单元具体用于：根据第一任务的运行性能数据构建第一任务的第一性能模型，其中，第一任务的第一性能模型用于预测第一任务在独占输入至第一任务的性能模型的资源规模的情况下的运行性能；根据第一任务的第一性能模型确定第一任务在独占第一任务对应的第一候选资源规模的情况下的运行性能，第一任务对应的候选资源规模包括第一任务对应的第一候选资源规模。

可选地，每个任务对应的候选资源规模为每个任务对应的所有候选资源规模中的部分资源规模，每个任务对应的候选资源规模中的部分资源规模与每个任务在独占每个任务对应的候选资源规模中的部分资源规模的情况下的运行性能满足第一预设条件。

可选地，第一预设条件包括：每个任务在独占每个任务对应的候选资源规模中的部分资源规模的情况下的运行性能与每个任务对应的候选资源规模中的部分资源规模之间的比值大于或等于第一阈值，第一阈值为任务对资源规模的利用效率的阈值。

可选地，处理单元具体用于：根据多个任务中的每个任务在独占每个任务对应的候选资源规模中的部分资源规模的情况下的运行性能确定多种资源规模组合下的目标候选资源分配方案，多种资源规模组合基于每个任务对应的候选资源规模中的部分资源规模的组合确定，多种资源规模组合中的每种资源规模组合下的目标候选资源分配方案指示每种资源规模组合下多个任务中的每个任务对应的目标候选资源；确定多种资源规模组合中的每种资源规模组合下的目标候选资源分配方案对应的多个任务的波动系数，每种资源规模组合下的目标候选资源分配方案对应的多个任务的波动系数分别用于指示多个任务在每种资源规模组合下的目标候选资源分配方案下并行执行的运行性能和多个任务在独占每种资源规模组合中的每个任务对应的资源规模的情况下的运行性能之间的差异；根据每种资源规模组合下的目标候选资源分配方案对应的多个任务的波动系数预测多个任务在每种资源规模组合下的目标候选资源分配方案下并行执行的运行性能；根据多个任务在多种资源规模组合下的目标候选资源分配方案下并行执行的运行性能从多种资源规模组合下的目标候选资源分配方案中确定多个任务中的每个任务对应的目标资源。

可选地，处理单元具体用于：根据多个任务中的每个任务在独占每个任务对应的候选资源规模中的部分资源规模的情况下的运行性能从每种资源规模组合下的候选资源分配方案中确定每种资源规模组合下的目标候选资源分配方案，每组资源规模组合下的候选资源分配方案所指示的每个任务对应的候选资源连续，多个任务在每种资源规模组合下的目标候选资源分配方案下独占每种资源规模组合中的每个任务对应的资源规模的情况下的整体运行性能优于多个任务在每种资源规模组合下的其他候选资源分配方案下独占每种资源规模组合中的每个任务对应的资源规模的情况下的整体运行性能。

可选地，处理单元具体用于：根据多个任务的运行性能数据构建多个任务的波动系数模型，多个任务的波动系数模型分别用于预测输入至多个任务的波动系数模型的资源分配方案对应的多个任务的波动系数；根据多个任务的波动系数模型分别确定多种资源规模组合中的每种资源规模组合下的目标候选资源分配方案对应的多个任务的波动系数。

可选地，多个任务包括多个应用对应的任务，多个应用中的每个应用对应一个任务。

可选地，多个任务包括一个应用中的多个功能模块对应的任务，多个功能模块中的每个功能模块对应一个任务。

这里的术语“单元”可以通过软件和/或硬件形式实现，对此不作具体限定。

例如，“单元”可以是实现上述功能的软件程序、硬件电路或二者结合。示例性的，接下来以处理单元为例，介绍处理单元的实现方式。类似的，获取单元以及输出单元的实现方式可以参考处理单元的实现方式。

处理单元作为软件功能单元的一种举例，处理单元可以包括运行在计算实例上的代码。其中，计算实例可以包括物理主机(计算设备)、虚拟机、容器中的至少一种。进一步地，上述计算实例可以是一台或者多台。例如，处理单元可以包括运行在多个主机/虚拟机/容器上的代码。需要说明的是，用于运行该代码的多个主机/虚拟机/容器可以分布在相同的区域(region)中，也可以分布在不同的region中。进一步地，用于运行该代码的多个主机/虚拟机/容器可以分布在相同的可用区(availability zone，AZ)中，也可以分布在不同的AZ中，每个AZ包括一个数据中心或多个地理位置相近的数据中心。其中，通常一个region可以包括多个AZ。

同样，用于运行该代码的多个主机/虚拟机/容器可以分布在同一个虚拟私有云(virtual private cloud，VPC)中，也可以分布在多个VPC中。其中，通常一个VPC设置在一个region内，同一region内两个VPC之间，以及不同region的VPC之间跨区通信需在每个VPC内设置通信网关，经通信网关实现VPC之间的互连。

处理单元作为硬件功能单元的一种举例，处理单元可以包括至少一个计算设备，如服务器等。或者，处理单元也可以是利用专用集成电路(application-specific integrated circuit，ASIC)实现、或可编程逻辑器件(programmable logic device，PLD)实现的设备等。其中，上述PLD可以是复杂程序逻辑器件(complex programmable logical device，CPLD)、现场可编程门阵列(field-programmable gate array，FPGA)、通用阵列逻辑(generic array logic，GAL)或其任意组合实现。

处理单元包括的多个计算设备可以分布在相同的region中，也可以分布在不同的region中。处理单元包括的多个计算设备可以分布在相同的AZ中，也可以分布在不同的AZ中。同样，处理单元包括的多个计算设备可以分布在同一个VPC中，也可以分布在多个VPC中。其中，所述多个计算设备可以是服务器、ASIC、PLD、CPLD、FPGA和GAL等计算设备的任意组合。

因此，在本申请的实施例中描述的各示例的模块，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

需要说明的是，在其他实施例中，处理单元可以用于执行资源分配的方法中的任意步骤，获取单元可以用于执行资源分配的方法中的任意步骤,输出单元可以用于执行资源分配的方法中的任意步骤，获取单元、处理单元和输出单元负责实现的步骤可根据需要指定，通过获取单元、处理单元和输出单元分别实现资源分配的方法中不同的步骤来实现装置1100的全部功能。

本申请还提供一种计算设备1000。如图12所示，计算设备1000包括：总线1002、处理器1004、存储器1006和通信接口1008。处理器1004、存储器1006和通信接口1008之间通过总线1002通信。计算设备1000可以是服务器或终端设备。应理解，本申请不限定计算设备1000中的处理器、存储器的个数。

总线1002可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图12中仅用一条线表示，但并不表示仅有一根总线或一种类型的总线。总线1004可包括在计算设备1000各个部件(例如，存储器1006、处理器1004、通信接口1008)之间传送信息的通路。

处理器1004可以包括中央处理器(central processing unit，CPU)、图形处理器(graphics processing unit，GPU)、微处理器(micro processor，MP)或者数字信号处理器(digital signal processor，DSP)等处理器中的任意一种或多种。

存储器1006可以包括易失性存储器(volatile memory)，例如随机存取存储器(random access memory，RAM)。处理器1004还可以包括非易失性存储器(non-volatile memory)，例如只读存储器(read-only memory，ROM)，快闪存储器，机械硬盘(hard disk drive，HDD)或固态硬盘(solid state drive，SSD)。

存储器1006中存储有可执行的程序代码，处理器1004执行该可执行的程序代码以分别实现前述获取单元和单元模块的功能，从而实现资源分配的方法。也即，存储器1006上存有用于执行资源分配的方法的指令。

通信接口1003使用例如但不限于网络接口卡、收发器一类的收发模块，来实现计算设备1000与其他设备或通信网络之间的通信。

本申请实施例还提供了一种计算设备集群。该计算设备集群包括至少一台计算设备。该计算设备可以是服务器，例如是中心服务器、边缘服务器，或者是本地数据中心中的本地服务器。在一些实施例中，计算设备也可以是台式机、笔记本电脑或者智能手机等终端设备。

如图13所示，所述计算设备集群包括至少一个计算设备1000。计算设备集群中的一个或多个计算设备1000中的存储器1006中可以存有相同的用于执行资源分配的方法的指令。

在一些可能的实现方式中，该计算设备集群中的一个或多个计算设备1000的存储器1006中也可以分别存有用于执行资源分配的方法的部分指令。换言之，一个或多个计算设备1000的组合可以共同执行用于执行资源分配的方法的指令。

需要说明的是，计算设备集群中的不同的计算设备1000中的存储器1006可以存储不同的指令，分别用于执行资源分配的装置的部分功能。例如，不同的计算设备1000中的存储器1006存储的指令可以实现获取单元和处理单元中的一个或多个单元的功能。

在一些可能的实现方式中，计算设备集群中的一个或多个计算设备可以通过网络连接。其中，所述网络可以是广域网或局域网等等。图14示出了一种可能的实现方式。如图14所示，两个计算设备1000A和1000B之间通过网络进行连接。具体地，通过各个计算设备中的通信接口与所述网络进行连接。在这一类可能的实现方式中，计算设备1000A中的存储器1006中存有执行获取单元的功能的指令。同时，计算设备1000B中的存储器1006中存有执行处理单元的功能的指令。

应理解，图14中示出的计算设备1000A的功能也可以由多个计算设备1000完成。同样，计算设备1000B的功能也可以由多个计算设备1000完成。

本申请实施例还提供了一种包含指令的计算机程序产品。所述计算机程序产品可以是包含指令的，能够运行在计算设备上或被储存在任何可用介质中的软件或程序产品。当所述计算机程序产品在至少一个计算设备上运行时，使得至少一个计算设备执行本申请实施例中的方法。

本申请实施例还提供了一种计算机可读存储介质。所述计算机可读存储介质可以是计算设备能够存储的任何可用介质或者是包含一个或多个可用介质的数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘)等。该计算机可读存储介质包括指令，所述指令指示计算设备执行本申请实施例中的方法，或指示计算设备执行本申请实施例中的方法。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种资源分配的方法，其特征在于，包括：

获取多个任务中的每个任务的运行性能数据，所述多个任务中的每个任务的运行性能数据包括所述每个任务在所述每个任务对应的样本资源规模下的运行性能；

根据所述多个任务中的每个任务的运行性能数据确定所述多个任务中的每个任务在独占所述每个任务对应的候选资源规模的情况下的运行性能；

根据所述多个任务中的每个任务在独占所述每个任务对应的候选资源规模的情况下的运行性能确定所述多个任务中的每个任务对应的目标资源。
根据权利要求1所述的方法，其特征在于，所述每个任务对应的目标资源包括所述每个任务对应的一个或多个进程，所述一个或多个进程分别与一个或多个资源槽绑定。
根据权利要求2所述的方法，其特征在于，所述多个进程为多个连续的进程，所述多个资源槽为多个连续的资源槽。
根据权利要求1至3中任一项所述的方法，其特征在于，所述多个任务包括第一任务，根据所述第一任务的运行性能数据确定所述第一任务在独占所述第一任务对应的候选资源规模的情况下的运行性能，包括：

根据所述第一任务的运行性能数据构建所述第一任务的第一性能模型，其中，所述第一任务的第一性能模型用于预测所述第一任务在独占输入至所述第一任务的性能模型的资源规模的情况下的运行性能；

根据所述第一任务的第一性能模型确定所述第一任务在独占所述第一任务对应的第一候选资源规模的情况下的运行性能，所述第一任务对应的候选资源规模包括所述第一任务对应的第一候选资源规模。
根据权利要求1至4中任一项所述的方法，其特征在于，所述每个任务对应的候选资源规模为所述每个任务对应的所有候选资源规模中的部分资源规模，所述每个任务对应的候选资源规模中的部分资源规模与所述每个任务在独占所述每个任务对应的候选资源规模中的部分资源规模的情况下的运行性能满足第一预设条件。
根据权利要求5所述的方法，其特征在于，所述第一预设条件包括：所述每个任务在独占所述每个任务对应的候选资源规模中的部分资源规模的情况下的运行性能与所述每个任务对应的候选资源规模中的部分资源规模之间的比值大于或等于第一阈值，所述第一阈值为任务对资源规模的利用效率的阈值。
根据权利要求5或6所述的方法，其特征在于，所述根据所述多个任务中的每个任务在独占所述每个任务对应的候选资源规模的情况下的运行性能确定所述多个任务中的每个任务对应的目标资源，包括：

根据所述多个任务中的每个任务在独占所述每个任务对应的候选资源规模中的部分资源规模的情况下的运行性能确定多种资源规模组合下的目标候选资源分配方案，所述多种资源规模组合基于所述每个任务对应的候选资源规模中的部分资源规模的组合确定，所述多种资源规模组合中的每种资源规模组合下的目标候选资源分配方案指示所述每种资源规模组合下所述多个任务中的每个任务对应的目标候选资源；

确定所述多种资源规模组合中的每种资源规模组合下的目标候选资源分配方案对应的多个任务的波动系数，所述每种资源规模组合下的目标候选资源分配方案对应的多个任务的波动系数分别用于指示所述多个任务在所述每种资源规模组合下的目标候选资源分配方案下并行执行的运行性能和所述多个任务在独占所述每种资源规模组合中的所述每个任务对应的资源规模的情况下的运行性能之间的差异；

根据所述每种资源规模组合下的目标候选资源分配方案对应的多个任务的波动系数预测所述多个任务在所述每种资源规模组合下的目标候选资源分配方案下并行执行的运行性能；

根据所述多个任务在所述多种资源规模组合下的目标候选资源分配方案下并行执行的运行性能从所述多种资源规模组合下的目标候选资源分配方案中确定所述多个任务中的每个任务对应的目标资源。
根据权利要求7所述的方法，其特征在于，所述根据所述多个任务中的每个任务在独占所述每个任务对应的候选资源规模中的部分资源规模的情况下的运行性能确定多种资源规模组合下的目标候选资源分配方案，包括：

根据所述多个任务中的每个任务在独占所述每个任务对应的候选资源规模中的部分资源规模的情况下的运行性能从所述每种资源规模组合下的候选资源分配方案中确定所述每种资源规模组合下的目标候选资源分配方案，所述每组资源规模组合下的候选资源分配方案所指示的每个任务对应的候选资源连续，所述多个任务在所述每种资源规模组合下的目标候选资源分配方案下独占所述每种资源规模组合中的所述每个任务对应的资源规模的情况下的整体运行性能优于所述多个任务在所述每种资源规模组合下的其他候选资源分配方案下独占所述每种资源规模组合中的所述每个任务对应的资源规模的情况下的整体运行性能。
根据权利要求7或8所述的方法，其特征在于，所述确定所述多种资源规模组合中的每种资源规模组合下的目标候选资源分配方案对应的多个任务的波动系数，包括：

根据所述多个任务的运行性能数据构建所述多个任务的波动系数模型，所述多个任务的波动系数模型分别用于预测输入至所述多个任务的波动系数模型的资源分配方案对应的多个任务的波动系数；

根据所述多个任务的波动系数模型分别确定所述多种资源规模组合中的每种资源规模组合下的目标候选资源分配方案对应的多个任务的波动系数。
根据权利要求1至9中任一项所述的方法，其特征在于，所述多个任务包括多个应用对应的任务，所述多个应用中的每个应用对应一个任务。
根据权利要求1至9中任一项所述的方法，其特征在于，所述多个任务包括一个应用中的多个功能模块对应的任务，所述多个功能模块中的每个功能模块对应一个任务。
一种资源分配的装置，其特征在于，包括：

获取单元，用于获取多个任务中的每个任务的运行性能数据，所述多个任务中的每个任务的运行性能数据包括所述每个任务在所述每个任务对应的样本资源规模下的运行性能；

处理单元，用于：

根据所述多个任务中的每个任务的运行性能数据确定所述多个任务中的每个任务在独占所述每个任务对应的候选资源规模的情况下的运行性能；

根据所述多个任务中的每个任务在独占所述每个任务对应的候选资源规模的情况下的运行性能确定所述多个任务中的每个任务对应的目标资源。
根据权利要求12所述的装置，其特征在于，所述每个任务对应的目标资源包括所述每个任务对应的一个或多个进程，所述一个或多个进程分别与一个或多个资源槽绑定。
根据权利要求13所述的装置，其特征在于，所述多个进程为多个连续的进程，所述多个资源槽为多个连续的资源槽。
根据权利要求12至14中任一项所述的装置，其特征在于，所述多个任务包括第一任务，所述处理单元具体用于：

根据所述第一任务的运行性能数据构建所述第一任务的第一性能模型，其中，所述第一任务的第一性能模型用于预测所述第一任务在独占输入至所述第一任务的性能模型的资源规模的情况下的运行性能；

根据所述第一任务的第一性能模型确定所述第一任务在独占所述第一任务对应的第一候选资源规模的情况下的运行性能，所述第一任务对应的候选资源规模包括所述第一任务对应的第一候选资源规模。
根据权利要求12至15中任一项所述的装置，其特征在于，所述每个任务对应的候选资源规模为所述每个任务对应的所有候选资源规模中的部分资源规模，所述每个任务对应的候选资源规模中的部分资源规模与所述每个任务在独占所述每个任务对应的候选资源规模中的部分资源规模的情况下的运行性能满足第一预设条件。
根据权利要求16所述的装置，其特征在于，所述第一预设条件包括：所述每个任务在独占所述每个任务对应的候选资源规模中的部分资源规模的情况下的运行性能与所述每个任务对应的候选资源规模中的部分资源规模之间的比值大于或等于第一阈值，所述第一阈值为任务对资源规模的利用效率的阈值。
根据权利要求16或17所述的装置，其特征在于，所述处理单元具体用于：

根据所述多个任务中的每个任务在独占所述每个任务对应的候选资源规模中的部分资源规模的情况下的运行性能确定多种资源规模组合下的目标候选资源分配方案，所述多种资源规模组合基于所述每个任务对应的候选资源规模中的部分资源规模的组合确定，所述多种资源规模组合中的每种资源规模组合下的目标候选资源分配方案指示所述每种资源规模组合下所述多个任务中的每个任务对应的目标候选资源；

确定所述多种资源规模组合中的每种资源规模组合下的目标候选资源分配方案对应的多个任务的波动系数，所述每种资源规模组合下的目标候选资源分配方案对应的多个任务的波动系数分别用于指示所述多个任务在所述每种资源规模组合下的目标候选资源分配方案下并行执行的运行性能和所述多个任务在独占所述每种资源规模组合中的所述每个任务对应的资源规模的情况下的运行性能之间的差异；

根据所述每种资源规模组合下的目标候选资源分配方案对应的多个任务的波动系数预测所述多个任务在所述每种资源规模组合下的目标候选资源分配方案下并行执行的运行性能；

根据所述多个任务在所述多种资源规模组合下的目标候选资源分配方案下并行执行的运行性能从所述多种资源规模组合下的目标候选资源分配方案中确定所述多个任务中的每个任务对应的目标资源。
根据权利要求18所述的装置，其特征在于，所述处理单元具体用于：

根据所述多个任务中的每个任务在独占所述每个任务对应的候选资源规模中的部分资源规模的情况下的运行性能从所述每种资源规模组合下的候选资源分配方案中确定所述每种资源规模组合下的目标候选资源分配方案，所述每组资源规模组合下的候选资源分配方案所指示的每个任务对应的候选资源连续，所述多个任务在所述每种资源规模组合下的目标候选资源分配方案下独占所述每种资源规模组合中的所述每个任务对应的资源规模的情况下的整体运行性能优于所述多个任务在所述每种资源规模组合下的其他候选资源分配方案下独占所述每种资源规模组合中的所述每个任务对应的资源规模的情况下的整体运行性能。
根据权利要求18或19所述的装置，其特征在于，所述处理单元具体用于：

根据所述多个任务的运行性能数据构建所述多个任务的波动系数模型，所述多个任务的波动系数模型分别用于预测输入至所述多个任务的波动系数模型的资源分配方案对应的多个任务的波动系数；

根据所述多个任务的波动系数模型分别确定所述多种资源规模组合中的每种资源规模组合下的目标候选资源分配方案对应的多个任务的波动系数。
根据权利要求12至20中任一项所述的装置，其特征在于，所述多个任务包括多个应用对应的任务，所述多个应用中的每个应用对应一个任务。
根据权利要求12至20中任一项所述的装置，其特征在于，所述多个任务包括一个应用中的多个功能模块对应的任务，所述多个功能模块中的每个功能模块对应一个任务。
一种资源分配的装置，其特征在于，包括处理器和存储器，所述处理器用于执行所述存储器中存储的指令，以使得所述装置执行如权利要求1至11中任一项所述的方法。
一种计算设备集群，其特征在于，包括至少一个计算设备，每个计算设备包括处理器和存储器；

所述至少一个计算设备的处理器用于执行所述至少一个计算设备的存储器中存储的指令，以使得所述计算设备集群执行如权利要求1至11中任一项所述的方法。
一种计算机可读存储介质，其特征在于，包括计算机程序指令，当所述计算机程序指令由计算设备集群执行时，所述计算设备集群执行如权利要求1至11中任一项所述的方法。
一种包含指令的计算机程序产品，其特征在于，当所述指令被计算设备集群运行时，使得所述计算设备集群执行如权利要求1至11中任一项所述的方法。