专利 一种资源调度方法、装置、设备以及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210716412.X (22)申请日 2022.06.23 (71)申请人中国电信股份有限公司地址 100033 北京市西城区金融大街31号 (72)发明人康亚京　程帅　赵继壮　王峰　 (74)专利代理机构北京柏杉松知识产权代理事务所(普通合伙) 11413 专利代理师孙翠贤　刘洋 (51)Int.Cl. G06F 9/50(2006.01) (54)发明名称一种资源调度方法、装置、设备以及存储介质 (57)摘要本发明实施例提供了一种资源调度方法、装置、设备以及存储介质，涉及计算机技术领域。具体实现方案为：响应于接收到待处理的目标任务，预测所述GPU集群的各个节点分别对应的指定任务的参考资源数据；其中，每一节点对应的指定任务为该节点当前正在处理的任务；针对所述各个节点中的每一节点，基于该节点对应的指定任务的参考资源数据，确定该节点在所述目标时间段所对应的可分配资源，作为该节点对应的待利用资源；基于各个节点分别对应的待利用资源，从所述各个节点中选取符合所述目标任务的资源需求的目标节点；调用所述目标节点的待利用资源处理所述目标任务。可见，通过本方案，可以提升资源池的利用率。权利要求书3页说明书14页附图4页 CN 115098257 A 2022.09.23 CN 115098257 A 1.一种资源调度方法，其特征在于，应用于图形处理器GPU集群下的主控节点，所述方法包括：响应于接收到待处理的目标任务，预测所述GPU集群的各个节点分别对应的指定任务的参考资源数据；其中，每一节点对应的指定任务为该节点当前正在处理的任务；任一指定任务的参考资源数据为用于表征该指定任务通过所对应的节点执行时，在目标时间段的资源使用情况；针对所述各个节点中的每一节点，基于该节点对应的指定任务的参考资源数据，确定该节点在所述目标时间段所对应的可分配资源，作为该节点对应的待利用资源；基于各个节点分别对应的待利用资源，从所述各个节点中选取符合所述目标任务的资源需求的目标节点；调用所述目标节点的待利用资源处理所述目标任务。 2.根据权利要求1所述的方法，其特征在于，所述预测所述GPU集群中的各个节点分别对应的指定任务的参考资源数据，包括：针对所述GPU集群的各个节点中的每一节点，获取该节点对应的指定任务的历史资源数据；其中，任一指定任务对应的历史资源数据表征在该指定任务通过所对应的节点执行时，在所述目标时间段之前的历史时间段的资源使用情况；利用该节点对应的指定任务的历史资源数据，预测该节点对应的指定任务的参考资源数据。 3.根据权利要求2所述的方法，其特征在于，所述利用该节点对应的指定任务的历史资源数据，预测该节点对应的指定任务的参考资源数据，包括：确定目标芯片类型对应的资源预测模型，作为待利用资源预测模型；其中，所述目标芯片类型为该节点所配置的用于处理所对应的指定任务的GPU芯片的芯片类型；每一芯片类型对应有一资源预测模型；其中，任一芯片类型对应的资源预测模型为利用指定样本任务的样本历史资源数据，以及所述指定样本任务对应真值训练得到的，所述指定样本任务为利用该芯片类型的GPU芯片所处理的样本任务，所述样本历史资源数据为表征在样本历史时段的资源使用情况的数据，所述指定样本任务对应的真值为表征在样本目标时间段的资源使用情况的数据，所述样本目标时间段为所述历史样本时段之后的时间段；将该节点对应的指定任务的历史资源数据，输入所述待利用资源预测模型，得到该节点对应的指定任务的参考资源数据。 4.根据权利要求3所述的方法，其特征在于，每一芯片类型对应的资源预测模型的训练方式，包括：确定训练样本；其中，每一训练样本为利用该芯片类型的GPU芯片所处理的样本任务的历史资源数据，所述每一训练样本具有指定标签，所述指定标签为表征该样本任务在样本目标时间段的资源使用情况的数据；将所述训练样本，输入待训练的资源预测模型，得到所述训练样本对应的预测结果；基于所述预测结果，判断模型是否收敛；若收敛，训练结束，否则调整所述资源预测模型的参数，并返回确定训练样本的步骤。 5.根据权利要求1所述的方法，其特征在于，每一节点对应的待利用资源，包括该节点所配置的各个GPU芯片对应的待利用资源；权　利　要　求　书 1/3 页 2 CN 115098257 A 2所述调用所述目标节点的待利用资源处理所述目标任务，包括：调用所述目标节点所配置的一GPU芯片对应的待利用资源，处理所述目标任务。 6.一种资源调度装置，其特征在于，应用于图形处理器GPU集群下的主控节点，所述装置包括：预测模块，用于响应于接收到待处理的目标任务，预测所述GPU集群的各个节点分别对应的指定任务的参考资源数据；其中，每一节点对应的指定任务为该节点当前正在处理的任务；任一指定任务的参考资源数据为用于表征该指定任务通过所对应的节点执行时，在目标时间段的资源使用情况；确定模块，用于针对所述各个节点中的每一节点，基于该节点对应的指定任务的参考资源数据，确定该节点在所述目标时间段所对应的可分配资源，作为该节点对应的待利用资源；选取模块，用于基于各个节点分别对应的待利用资源，从所述各个节点中选取符合所述目标任务的资源需求的目标节点；调用模块，用于调用所述目标节点的待利用资源处理所述目标任务。 7.根据权利要求6所述的装置，其特征在于，所述预测模块，包括：获取子模块，用于针对所述GPU集群的各个节点中的每一节点，获取该节点对应的指定任务的历史资源数据；其中，任一指定任务对应的历史资源数据表征在该指定任务通过所对应的节点执行时，在所述目标时间段之前的历史时间段的资源使用情况；预测子模块，用于利用该节点对应的指定任务的历史资源数据，预测该节点对应的指定任务的参考资源数据。 8.根据权利要求7 所述的装置，其特征在于，所述预测子模块，具体用于：确定目标芯片类型对应的资源预测模型，作为待利用资源预测模型；其中，所述目标芯片类型为该节点所配置的用于处理所对应的指定任务的GPU芯片的芯片类型；每一芯片类型对应有一资源预测模型；其中，任一芯片类型对应的资源预测模型为利用指定样本任务的样本历史资源数据，以及所述指定样本任务对应真值训练得到的，所述指定样本任务为利用该芯片类型的GPU芯片所处理的样本任务，所述样本历史资源数据为表征在样本历史时段的资源使用情况的数据，所述指定样本任务对应的真值为表征在样本目标时间段的资源使用情况的数据，所述样本目标时间段为所述历史样本时段之后的时间段；将该节点对应的指定任务的历史资源数据，输入所述待利用资源预测模型，得到该节点对应的指定任务的参考资源数据。 9.根据权利要求8所述的装置，其特征在于，每一芯片类型对应的资源预测模型的训练方式，包括：确定训练样本；其中，每一训练样本为利用该芯片类型的GPU芯片所处理的样本任务的历史资源数据，所述每一训练样本具有指定标签，所述指定标签为表征该样本任务在样本目标时间段的资源使用情况的数据；将所述训练样本，输入待训练的资源预测模型，得到所述训练样本对应的预测结果；基于所述预测结果，判断模型是否收敛；若收敛，训练结束，否则调整所述资源预测模型的参数，并返回确定训练样本的步骤。 10.根据权利要求6所述的装置，其特征在于，每一节点对应的待利用资源，包括该节点权　利　要　求　书 2/3 页 3 CN 115098257 A 3

专利 一种资源调度方法、装置、设备以及存储介质

专利一种资源调度方法、装置、设备以及存储介质