专利 一种面向边缘设备深度学习模型推理的自适应批处理和并行调度系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210662359.X (22)申请日 2022.06.13 (71)申请人哈尔滨工业大学地址 150001 黑龙江省哈尔滨市南岗区西大直街92号 (72)发明人张子阳　刘劼　李峰　李欢　林昌垚　 (74)专利代理机构哈尔滨市阳光惠远知识产权代理有限公司 2321 1 专利代理师孙莉莉 (51)Int.Cl. G06F 9/48(2006.01) G06F 9/50(2006.01) G06F 16/33(2019.01) G06N 5/04(2006.01) (54)发明名称一种面向边缘设备深度学习模型推理的自适应批处理和并行调度系统 (57)摘要本发明提出了一种面向边缘设备深度学习模型推理的自适应批处理和并行调度系统，包括决策模块、动态批处理调度模块、模型并行模块、性能分析器四部分；决策模块对深度学习模型的批处理和并行推理进行调度建模并为不同模型选择合适的批处理大小和模型并行数量，动态批处理调度模块进行批处理推理；模型并行模块同时处理多个推理请求；性能分析器以在线方式实时收集边缘设备的系统状态；与传统的启发式和其他强化学习方法相比，本发明设计的基于最大熵强化学习的调度决策算法，在对系统吞吐量和推理延迟的权衡方面有着3.2～58％的性能提升，同时收敛速度是其他算法的1.8～6.5倍；此外，平均调度开销只有其他算法的49％。权利要求书3页说明书10页附图4页 CN 115454585 A 2022.12.09 CN 115454585 A 1.一种面向边缘设备深度学习模型推理的自适应批处理和并行调度系统，其特征在于：所述系统包括决策模块、动态批处理调度模块、模型并行模块、性能分析器；所述决策模块通过马尔科夫决策过程，对到达的推理请求进行批处理和并行调度的过程建模，再通过基于调度决策算法进行批处理和并行推理的调度决策，并针对不同模型自动选择合适的批处理大小和模型并行数量；所述动态批处理调度模块将推理请求根据请求到达的先后顺序依次添加到请求序列中，并调度到该模型的多个实例上的批处理槽si进行批处理推理；所述模型并行模块允许不同模型/同一模型的多个实例并行执行，同时处理模型的多个推理请求；所述性能分析器以在线方式实时收集边缘设备的系统状态，包括当前时刻CPU、 GPU、内存和能耗的利用率，系统吞吐量和推理延迟。 2.一种应用于权利要求1所述的面向边缘设备深度学习模型推理的自适应批处理和并行调度系统，其特征在于：所述控制方法具体包括以下步骤：步骤1、终端设备将推理请求发送至调度决策模块；步骤2、调度决策模块通过马尔科夫决策过程，对到达的推理请求进行批处理和并行调度的过程建模，再通过调度决策算法进行批处理和并行推理的调度决策，并针对不同模型自动选择合适的批处理大小和模型并行数量；步骤3、动态批处理调度模块将推理请求根据请求到达的先后顺序依次添加到请求序列中，并调度到该模型的多个实例上的批处理槽si进行批处理推理；步骤4、模型并行模块将不同模型/同一模型的多个实例并行执行，同时处理模型的多个推理请求；步骤5、性能分析器以在线方式实时收集边缘设备的系统状态，包括当前时刻CPU、 GPU、内存和能耗的利用率，系统吞吐量和推理延迟，并反馈给调度决策模块，在分析当前系统可用资源的基础上，为下一时刻的推理请求做出调度决策。 3.根据权利要求2所述控制方法，其特征在于：通过一个五元组描述马尔科夫决策过程，五元组定义为：状态：是离散状态空间；在每个调度时间步，强化学习的智能体agent会构造一个状态 st(st∈S)，定期收集推理请求信息和边缘设备上的系统状态信息；所述系统状态信息包括以下几部分： (I)当前推理请求的模型类型mt； (II)当前请求的数据类型dt和数据大小ds； (III)当前请求的绝对截止时间d dla和相对截止时间d dlr； (IV)边缘设备当前可用的CPU、 GPU、 memory和能耗利用率，分别记为Cu， Gu， Mu和Eu； (V)等待调度的请求序列信息seqb；动作：是离散动作空间；用于选择合适的批处理大小b和模型并行数量mc，因此在调度时刻t智能体做出的动作可以表示为at＝(b,mc)；策略:策略π(at|st)表示在时刻t智能体根据环境的当前状态st来决定下一步动作权　利　要　求　书 1/3 页 2 CN 115454585 A 2的函数；在最大化智能体获得的累积期望奖励的同时最大化所访问过的状态的熵，最优策略π* 如公式(2)所示：其中， γ∈[0,1]是折扣因子， ρπ是由策略π产生的轨迹分布， α 是温度参数，用于控制优化目标更关注奖励还是熵；表示在状态st下策略π 的熵；状态转移概率： p(s't|st,at)是状态转移概率，表示在时刻t的当前状态st下做出某个动作at后，转移到下一个状态s't的概率，满足奖励：是奖励函数；智能体的目的是最大化累积的期望奖励 rt表示在每个调度时间t，智能体选择合适的批处理大小和模型并行数量，然后执行推理时获得的即时奖励；为了能使奖励反映目标函数， rt被定义为公式(3)的形式：其中，和 ξ代表权重，且 b和mc分别表示智能体选择的批处理大小和模型并行数量， u＝(Cu+Gu+Mu+Eu)/4表示系统资源利用率的平均值。 4.根据权利要求3所述控制方法，其特征在于：所述调度决策算法基于Actor ‑Critic框架；其中， Critic使用动作 ‑状态价值函数Q ‑ function用于评判Actor根据策略所做出动作的好坏，即使用软策略迭代使奖励最大化的同时使熵最大化；软策略迭代包括策略评估和策略改进两步，并在训练过程中交替进行；所述策略评估步骤为：首先计算soft q‑function并将其定义为：其中，表示修正的贝尔曼备份算子；其中 V(st)：＝ π(st)T[Q(st)‑α log( π(st))] (5) 是离散情况下的软状态值函数；利用公式(6)中的最小化软贝尔曼残差来训练soft q‑function； 5.根据权利要求 4所述控制方法，其特征在于：所述策略改进对策略进行更新，具体公式如下：其中， DKL表示KL散度，表示配分函数；利用公式(8)中的最小化KL散度来更新策略网络的参数：权　利　要　求　书 2/3 页 3 CN 115454585 A 3

专利 一种面向边缘设备深度学习模型推理的自适应批处理和并行调度系统

专利一种面向边缘设备深度学习模型推理的自适应批处理和并行调度系统