说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221086978 8.4 (22)申请日 2022.07.22 (71)申请人 武汉大学 地址 430072 湖北省武汉市武昌区珞珈山 (72)发明人 李兵 姜德纶 赵玉琦 王健  (74)专利代理 机构 武汉智权专利代理事务所 (特殊普通 合伙) 42225 专利代理师 马丽娜 (51)Int.Cl. G06F 9/50(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种边缘计算环境下多目标任务调度方法 及装置 (57)摘要 本发明涉及一种边缘计算环境下多目标任 务调度方法及装置, 其特征在于, 其包括步骤: 构 建用于对边缘服务器中多个服务请求的执行顺 序进行决策的指针网络模型, 且使所述指针网络 模型的结果取样策略将服务请求的平均等待时 间作为优化指标; 将边缘服务器的资源利用率与 运行时间整合为一个优化目标作为强化学习的 奖励函数对指针网络模型进行训练。 本发明实施 例将等待时间优化目标融合在模 型决策内部, 从 而达到多目标优化的效果, 不需要对权重取值进 行大量的实验分析, 对指针网络的模 型训练更加 有效。 同时, 基于强化学习的指针网络模 型, 无需 像传统的启发 式算法需要长时间迭代, 可以做到 迅速决策, 符合 边缘环境下对时延敏感的要求。 权利要求书2页 说明书11页 附图3页 CN 115292036 A 2022.11.04 CN 115292036 A 1.一种边 缘计算环境下多目标任务调度方法, 其特 征在于, 其包括 步骤: 构建用于对边缘服务器中多个服务请求的执行顺序进行 决策的指针网络模型, 且使所 述指针网络模型的结果取样策略将服 务请求的平均等待时间作为优化指标; 将边缘服务器的资源利用率与运行时间整合为一个优化目标作为强化学习的奖励函 数对指针网络模型进行训练。 2.如权利要求1所述的一种边缘计算环境下多目标任务调度方法, 其特征在于, 所述指 针网络模 型包括Actor网络和Cr itic网络, 其中所述Actor网络用于决策多个服务请求的执 行顺序, Critic网络用于帮助所述Actor 网络进行所述训练, 所述Actor 网络包括编码器和 解码器, 且所述编码器和解码器均包括由多个长短期记忆网络组成的循环神经网络, 所述 对边缘服务器中多个服 务请求的执 行顺序进行决策, 包括 步骤: 将正在排队的服务请求序列作为输入序列并转化为第一中间向量输入所述Actor网络 的编码器得到对应编码器 每一个隐藏层的状态; 将所述编码器每一个隐藏层的状态输入解码器获取解码器每一个隐藏层的状态并将 所述解码器每一个隐藏层的状态通过 所述指针网络模型的注意力机制获取第二中间向量; 基于所述第二中间向量获取解码器在某个隐藏层中选取各个服务请求作为本层输出 的概率; 每个隐藏层基于所述本层输出的概率和所述结果取样策略选取相应的服务请求作为 本层的输出, 并根据所有隐藏层的输出作为所述边缘服务器的输出序列定义执行服务请求 的顺序。 3.如权利要求2所述的一种边缘计算环境下多目标任务调度方法, 其特征在于, 所述每 个隐藏层基于所述本层输出的概率和所述结果取样策略选取相 应的服务请求作为本层的 输出, 包括 步骤: 对于所述第 二中间向量以及对应的服务请求, 判断尚未被选取的服务请求数量是否超 过第一预设阈值, 若是, 则 在所述尚未被选取的服务请求对应的第 二中间向量中, 选取数值较大的一部分第 二中 间向量所对应的服务请求, 并从这部分服务请求中选择运行所需时间最短的服务请求作为 本层的输出。 4.如权利要求3所述的一种边缘计算环境下多目标任务调度方法, 其特征在于, 所述每 个隐藏层基于所述本层输出的概率和所述结果取样策略选取相 应的服务请求作为本层的 输出, 包括 步骤: 若尚未被选取的服务请求数量超过第 一预设阈值, 则在所述尚未被选取的服务请求对 应的第二中间向量中进行概 率抽样并根据抽样结果确定 本层输出。 5.如权利要求1所述的一种边缘计算环境下多目标任务调度方法, 其特征在于, 所述将 边缘服务器的资源利用率与运行时间整合为一个优化目标作为强化学习的奖励函数对指 针网络模型进行训练, 包括 步骤: 基于 确定所述奖励函数reward, 其中, m为边缘服务器总数, T_serverj为边缘服务器j运行完所有服 务请求所需的总时间; 使用随机梯度下降的强化学习方式进行训练。权 利 要 求 书 1/2 页 2 CN 115292036 A 26.一种边 缘计算环境下多目标任务调度装置, 其特 征在于, 其包括: 多服务请求决策模块, 构建用于对边缘服务器中多个服务请求的执行顺序进行 决策的 指针网络模型, 且使 所述指针网络模型的结果取样策略将服务请求的平均等待时间作为优 化指标; 强化学习 模块, 将边缘服务器的资源利用率与运行时间整合为一个优化目标作为强化 学习的奖励函数对指针网络模型进行训练。 7.如权利要求6所述的一种边缘计算环境下多目标任务调度装置, 其特征在于, 所述指 针网络模 型包括Actor网络和Cr itic网络, 其中所述Actor网络用于决策多个服务请求的执 行顺序, Critic网络用于帮助所述Actor 网络进行所述训练, 所述Actor 网络包括编码器和 解码器, 且所述编码器和解码器均包括由多个长短期记 忆网络组成的循环神经网络; 所述多服 务请求决策模块还用于: 将正在排队的服务请求序列作为输入序列并转化为第一中间向量输入所述Actor网络 的编码器得到对应编码器 每一个隐藏层的状态; 将所述编码器每一个隐藏层的状态输入解码器获取解码器每一个隐藏层的状态并将 所述解码器每一个隐藏层的状态通过 所述指针网络模型的注意力机制获取第二中间向量; 基于所述第二中间向量获取解码器在某个隐藏层中选取各个服务请求作为本层输出 的概率; 每个隐藏层基于所述本层输出的概率和所述结果取样策略选取相应的服务请求作为 本层的输出, 并根据所有隐藏层的输出作为所述边缘服务器的输出序列定义执行服务请求 的顺序。 8.如权利要求7所述的一种边缘计算环境下多目标任务调度装置, 其特征在于, 所述多 服务请求决策模块还用于: 对于所述第 二中间向量以及对应的服务请求, 判断尚未被选取的服务请求数量是否超 过第一预设阈值, 若是, 则 在所述尚未被选取的服务请求对应的第 二中间向量中, 选取数值较大的一部分第 二中 间向量所对应的服务请求, 并从这部分服务请求中选择运行所需时间最短的服务请求作为 本层的输出。 9.如权利要求8所述的一种边缘计算环境下多目标任务调度装置, 其特征在于, 所述多 服务请求决策模块还用于: 若尚未被选取的服务请求数量超过第 一预设阈值, 则在所述尚未被选取的服务请求对 应的第二中间向量中进行概 率抽样并根据抽样结果确定 本层输出。 10.如权利要求6所述的一种边缘计算环境下多目标任务调度装置, 其特征在于, 所述 强化学习模块用于: 基于 确定所述奖励函数reward, 其中, m为边缘服务器总数, T_serverj为边缘服务器j运行完所有服 务请求所需的总时间; 使用随机梯度下降的强化学习方式进行训练。权 利 要 求 书 2/2 页 3 CN 115292036 A 3

.PDF文档 专利 一种边缘计算环境下多目标任务调度方法及装置

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种边缘计算环境下多目标任务调度方法及装置 第 1 页 专利 一种边缘计算环境下多目标任务调度方法及装置 第 2 页 专利 一种边缘计算环境下多目标任务调度方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:29:41上传分享
友情链接
交流群
  • //public.wenku.github5.com/wodemyapi/22.png
-->
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。