(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210716412.X
(22)申请日 2022.06.23
(71)申请人 中国电信股份有限公司
地址 100033 北京市西城区金融大街31号
(72)发明人 康亚京 程帅 赵继壮 王峰
(74)专利代理 机构 北京柏杉松知识产权代理事
务所(普通 合伙) 11413
专利代理师 孙翠贤 刘洋
(51)Int.Cl.
G06F 9/50(2006.01)
(54)发明名称
一种资源调度方法、 装置、 设备以及存储介
质
(57)摘要
本发明实施例提供了一种资源调度方法、 装
置、 设备以及存储介质, 涉及计算机技术领域。 具
体实现方案为: 响应于接收到待处理的目标任
务, 预测所述GPU集群的各个节点分别对应的指
定任务的参考资源数据; 其中, 每一节点对应的
指定任务为该节点当前正在处理的任务; 针对所
述各个节 点中的每一节点, 基于该节 点对应的指
定任务的参考资源数据, 确定该节 点在所述目标
时间段所对应的可分配资源, 作为该节点对应的
待利用资源; 基于各个节点分别对应的待利用资
源, 从所述各个节点中选取符合所述目标任务的
资源需求的目标节点; 调用所述目标节点的待利
用资源处理所述目标任务。 可见, 通过本方案, 可
以提升资源 池的利用率。
权利要求书3页 说明书14页 附图4页
CN 115098257 A
2022.09.23
CN 115098257 A
1.一种资源调度方法, 其特征在于, 应用于图形处理器GPU集群下的主控节点, 所述方
法包括:
响应于接收到待处理的目标任务, 预测所述GPU集群的各个节点分别对应的指定任务
的参考资源数据; 其中, 每一节点对应的指 定任务为该节点当前正在处理的任务; 任一指 定
任务的参考资源数据为用于表征该指 定任务通过所对应的节点执行时, 在目标时间段的资
源使用情况;
针对所述各个节点中的每一节点, 基于该节点对应的指定任务的参考资源数据, 确定
该节点在所述目标时间段 所对应的可分配资源, 作为该节点对应的待利用资源;
基于各个节点分别对应的待利用资源, 从所述各个节点中选取符合所述目标任务的资
源需求的目标节点;
调用所述目标节点的待利用资源处 理所述目标任务。
2.根据权利要求1所述的方法, 其特征在于, 所述预测所述GPU集群中的各个节点分别
对应的指定任务的参 考资源数据, 包括:
针对所述GPU集群的各个节点中的每一节点, 获取该节点对应的指定任务的历史资源
数据; 其中, 任一指定任务对应的历史资源数据表征在该指定任务通过所对应的节点执行
时, 在所述目标时间段之前的历史时间段的资源使用情况;
利用该节点对应的指定任务的历史资源数据, 预测该节点对应的指定任务的参考资源
数据。
3.根据权利要求2所述的方法, 其特征在于, 所述利用该节点对应的指定任务的历史资
源数据, 预测该节点对应的指定任务的参 考资源数据, 包括:
确定目标芯片类型对应的资源预测模型, 作为待利用资源预测模型; 其中, 所述目标芯
片类型为该节点所配置的用于处理所对应的指定任务的GPU芯片的芯片类型; 每一芯片类
型对应有一资源预测模型; 其中, 任一芯片类型对应的资源预测模型为利用指定样本任务
的样本历史资源数据, 以及所述指定样本任务对应真值训练得到的, 所述指定样本任务为
利用该芯片类型 的GPU芯片所处理的样本任务, 所述样本历史资源数据为表征在样本历史
时段的资源使用情况的数据, 所述指 定样本任务对应的真值为表征在样本目标时间段的资
源使用情况的数据, 所述样本目标时间段为所述历史样本时段之后的时间段;
将该节点对应的指定任务的历史资源数据, 输入所述待利用资源预测模型, 得到该节
点对应的指定任务的参 考资源数据。
4.根据权利要求3所述的方法, 其特征在于, 每一芯片类型对应的资源预测模型的训练
方式, 包括:
确定训练样本; 其中, 每一训练样本为利用该芯片类型的GPU芯片所处理的样本任务的
历史资源数据, 所述每一训练样本具有指定标签, 所述指定标签为表征该样本任务在样本
目标时间段的资源使用情况的数据;
将所述训练样本, 输入待训练的资源预测模型, 得到所述训练样本对应的预测结果;
基于所述预测结果, 判断模型 是否收敛;
若收敛, 训练结束, 否则调整所述资源预测模型的参数, 并返回确定训练样本的步骤。
5.根据权利要求1所述的方法, 其特征在于, 每一节点对应的待利用资源, 包括该节点
所配置的各个GPU芯片对应的待利用资源;权 利 要 求 书 1/3 页
2
CN 115098257 A
2所述调用所述目标节点的待利用资源处 理所述目标任务, 包括:
调用所述目标节点所配置的一GPU芯片对应的待利用资源, 处 理所述目标任务。
6.一种资源调度装置, 其特征在于, 应用于图形处理器GPU集群下的主控节点, 所述装
置包括:
预测模块, 用于响应于接收到待处理的目标任务, 预测所述GPU集群的各个节点分别对
应的指定任务的参考资源数据; 其中, 每一节点对应的指定任务为该节点当前正在处理的
任务; 任一指定任务的参考资源数据为用于表征该指定任务通过所对应的节点执行时, 在
目标时间段的资源使用情况;
确定模块, 用于针对所述各个节点中的每一节点, 基于该节点对应的指定任务的参考
资源数据, 确定该节点在所述 目标时间段所对应的可分配资源, 作为该节点对应的待利用
资源;
选取模块, 用于基于各个节点分别对应的待利用资源, 从所述各个节点中选取符合所
述目标任务的资源需求的目标节点;
调用模块, 用于调用所述目标节点的待利用资源处 理所述目标任务。
7.根据权利要求6所述的装置, 其特 征在于, 所述预测模块, 包括:
获取子模块, 用于针对所述GPU集群的各个节点中的每一节点, 获取该节点对应的指定
任务的历史资源数据; 其中, 任一指定任务对应的历史资源数据表征在该指定任务通过所
对应的节点执 行时, 在所述目标时间段之前的历史时间段的资源使用情况;
预测子模块, 用于利用该节点对应的指定任务的历史资源数据, 预测该节点对应的指
定任务的参 考资源数据。
8.根据权利要求7 所述的装置, 其特 征在于, 所述预测子模块, 具体用于:
确定目标芯片类型对应的资源预测模型, 作为待利用资源预测模型; 其中, 所述目标芯
片类型为该节点所配置的用于处理所对应的指定任务的GPU芯片的芯片类型; 每一芯片类
型对应有一资源预测模型; 其中, 任一芯片类型对应的资源预测模型为利用指定样本任务
的样本历史资源数据, 以及所述指定样本任务对应真值训练得到的, 所述指定样本任务为
利用该芯片类型 的GPU芯片所处理的样本任务, 所述样本历史资源数据为表征在样本历史
时段的资源使用情况的数据, 所述指 定样本任务对应的真值为表征在样本目标时间段的资
源使用情况的数据, 所述样本目标时间段为所述历史样本时段之后的时间段;
将该节点对应的指定任务的历史资源数据, 输入所述待利用资源预测模型, 得到该节
点对应的指定任务的参 考资源数据。
9.根据权利要求8所述的装置, 其特征在于, 每一芯片类型对应的资源预测模型的训练
方式, 包括:
确定训练样本; 其中, 每一训练样本为利用该芯片类型的GPU芯片所处理的样本任务的
历史资源数据, 所述每一训练样本具有指定标签, 所述指定标签为表征该样本任务在样本
目标时间段的资源使用情况的数据;
将所述训练样本, 输入待训练的资源预测模型, 得到所述训练样本对应的预测结果;
基于所述预测结果, 判断模型 是否收敛;
若收敛, 训练结束, 否则调整所述资源预测模型的参数, 并返回确定训练样本的步骤。
10.根据权利要求6所述的装置, 其特征在于, 每一节点对应的待利用资源, 包括该节点权 利 要 求 书 2/3 页
3
CN 115098257 A
3
专利 一种资源调度方法、装置、设备以及存储介质
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 13:29:34上传分享