(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210662359.X
(22)申请日 2022.06.13
(71)申请人 哈尔滨工业大 学
地址 150001 黑龙江省哈尔滨市南岗区西
大直街92号
(72)发明人 张子阳 刘劼 李峰 李欢
林昌垚
(74)专利代理 机构 哈尔滨市阳光惠远知识产权
代理有限公司 2321 1
专利代理师 孙莉莉
(51)Int.Cl.
G06F 9/48(2006.01)
G06F 9/50(2006.01)
G06F 16/33(2019.01)
G06N 5/04(2006.01)
(54)发明名称
一种面向边缘设备深度学习模型推理的自
适应批处理和并行调度系统
(57)摘要
本发明提出了一种面向边缘设备深度学习
模型推理的自适应批处理和并行调度系统, 包括
决策模块、 动态批处理调度模块、 模型并行模块、
性能分析器四部分; 决策模块对深度学习模型的
批处理和并行推理进行调度建模并为不同模型
选择合适的批处理大小和模型并行数量, 动态批
处理调度模块进行批处理推理; 模 型并行模块同
时处理多个推理请求; 性能分析器以在线方式实
时收集边缘 设备的系统状态; 与传统的启发式和
其他强化学习方法相比, 本发明设计的基于最大
熵强化学习的调度决策算法, 在对系统吞吐量和
推理延迟的权衡方面有着3.2~58%的性能提
升, 同时收敛速度是其他算法的1.8~6.5倍; 此
外, 平均调度开销只有其 他算法的49%。
权利要求书3页 说明书10页 附图4页
CN 115454585 A
2022.12.09
CN 115454585 A
1.一种面向边缘设备深度学习模型推理的自适应批处理和并行调度系统, 其特征在
于:
所述系统包括决策模块、 动态批处 理调度模块、 模型并行模块、 性能分析器;
所述决策模块通过马尔科夫 决策过程, 对到达的推理请求进行批处理和并行调度的过
程建模, 再通过基于调度决策算法进行批处理和并行推理的调度决策, 并针对不同模型自
动选择合 适的批处 理大小和模型并行 数量;
所述动态批处理调度模块将推理请求根据请求到达的先后顺序依次添加到请求序列
中, 并调度到该模型的多个实例上的批处 理槽si进行批处 理推理;
所述模型并行模块允许不同模型/同一模型的多个实例并行执行, 同时处理模型的多
个推理请求;
所述性能分析器以在线方式实时收集边缘设备的系统状态, 包括当前时刻CPU、 GPU、 内
存和能耗的利用率, 系统吞吐量和推理延迟。
2.一种应用于权利要求1所述的面向边缘设备深度学习 模型推理 的自适应批处理和并
行调度系统, 其特 征在于:
所述控制方法具体包括以下步骤:
步骤1、 终端设备将推理请求发送至调度决策模块;
步骤2、 调度决策模块通过马尔科夫 决策过程, 对到达的推理请求进行批处理和并行调
度的过程建模, 再通过调度决策算法进行批处理和并行推理的调度决策, 并针对不同模型
自动选择合 适的批处 理大小和模型并行 数量;
步骤3、 动态批处理调度模块将推理请求根据请求到达的先后顺序依次添加到请求序
列中, 并调度到该模型的多个实例上的批处 理槽si进行批处 理推理;
步骤4、 模型并行模块将不同模型/同一模型的多个实例并行执行, 同时处理模型的多
个推理请求;
步骤5、 性能分析器以在线方式实时收集边缘设备的系统状态, 包括当前 时刻CPU、 GPU、
内存和能耗的利用率, 系统吞吐量和推理延迟, 并反馈给调度决策模块, 在分析当前系统可
用资源的基础上, 为下一时刻的推理请求做出调度决策。
3.根据权利要求2所述控制方法, 其特 征在于:
通过一个五元组
描述马尔科 夫决策过程, 五元组
定义为:
状态:
是离散状态空间; 在每个调 度时间步, 强化学习的智能体agent会构造一个状态
st(st∈S), 定期收集推理请求信息和边 缘设备上的系统状态信息;
所述系统状态信息包括以下几部分:
(I)当前推理请求的模型类型mt;
(II)当前请求的数据类型dt和数据大小ds;
(III)当前请求的绝对 截止时间d dla和相对截止时间d dlr;
(IV)边缘设备当前 可用的CPU、 GPU、 memory和能耗利用率, 分别记为Cu, Gu, Mu和Eu;
(V)等待调度的请求序列信息seqb;
动作:
是离散动作空间; 用于选择合适的批处理大小b和模型并行数量mc, 因此在调度
时刻t智能体做出的动作可以表示 为at=(b,mc);
策略:策略π(at|st)表示在时刻t智能体根据环境的当前状态st来决定下一步动作权 利 要 求 书 1/3 页
2
CN 115454585 A
2的函数;
在最大化智能体获得的累积期望奖励的同时最大化所访问过的状态的熵, 最优策 略π*
如公式(2)所示:
其中, γ∈[0,1]是折扣因子, ρπ是由策略π产生的轨迹分布, α 是温度参数, 用于控制优
化目标更关注奖励还是熵;
表示在状态st下策略π 的熵;
状态转移概率: p(s't|st,at)是状态转移概率, 表示在时刻t的当前状态st下做出某个动
作at后, 转移到下一个 状态s't的概率, 满足
奖励:
是奖励函数; 智能体的目的是最大化累积的期望奖励
rt表示在每个调度时间t, 智能体选择合适的批 处理大小和模型并行数量, 然后执行推理时
获得的即时奖励;
为了能使奖励反映目标函数, rt被定义为公式(3)的形式:
其中,
和 ξ代表权重, 且
b和mc分别表示智能体选择的批处理大小和模型并
行数量, u=(Cu+Gu+Mu+Eu)/4表示系统资源利用率的平均值。
4.根据权利要求3所述控制方法, 其特 征在于:
所述调度决策算法基于Actor ‑Critic框架; 其中, Critic使用动作 ‑状态价值函数Q ‑
function用于评判Actor根据策略所做出动作的好坏, 即使用软策略迭代使奖励最大化的
同时使熵最大化;
软策略迭代包括策略评估和策略改进两步, 并在训练过程中交替进行;
所述策略评估步骤为:
首先计算soft q‑function并将其定义 为:
其中,
表示修正的贝尔曼 备份算子;
其中
V(st): = π(st)T[Q(st)‑α log( π(st))] (5)
是离散情况下的软状态值 函数;
利用公式(6)中的最小化软贝尔曼残差来训练soft q‑function;
5.根据权利要求 4所述控制方法, 其特 征在于:
所述策略改进对策略进行 更新, 具体公式如下:
其中, DKL表示KL散度,
表示配分函数;
利用公式(8)中的最小化KL散度来更新策略网络的参数:权 利 要 求 书 2/3 页
3
CN 115454585 A
3
专利 一种面向边缘设备深度学习模型推理的自适应批处理和并行调度系统
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 13:29:56上传分享