说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210695496.3 (22)申请日 2022.06.20 (71)申请人 上海电力大 学 地址 201306 上海市浦东 新区沪城环路 1851号 (72)发明人 杜海舟 黄晟  (74)专利代理 机构 南京禹为知识产权代理事务 所(特殊普通 合伙) 32272 专利代理师 刘子奇 (51)Int.Cl. G06N 3/08(2006.01) G06N 3/063(2006.01) G06F 9/50(2006.01) (54)发明名称 一种面向异构集群加速分布式训练的方法 及系统 (57)摘要 本发明公开了一种面向异构集群加速分布 式训练的方法及系统, 包括: 收集所有计算节点 的性能数据, 并对所需训练数据进行动态分配; 对局部iteration更新次数进行分配, 使得所有 计算节点在近乎相同的时间点完成任务; 采用深 度强化学习策略缩减所述训练数据的训练时间, 并将梯度数据上传至参数服务器; 循环迭代, 直 至训练epoch达到设定值。 通过数据动态分配模 块、 负载均衡模块以及屏障控制模块的协同工作 减少每一轮用于等待掉队节点的时间开销, 提高 集群计算资源利用率, 对整个训练过程实现加速 并保证不降低最终的模型精度。 权利要求书2页 说明书7页 附图3页 CN 115081619 A 2022.09.20 CN 115081619 A 1.一种面向异构集群加速分布式训练的方法, 其特 征在于, 包括: 收集所有计算节点的性能数据, 并对所需训练数据进行动态分配; 对局部iteration更新次数进行分配, 使得所有计算节点在近乎相同的时间点完成任 务; 采用深度强化学习策略缩减所述训练数据的训练时间, 并将梯度 数据上传至参数服务 器; 循环迭代, 直至训练epoc h达到设定值。 2.如权利要求1所述的面向异构集群加速分布式训练 的方法, 其特征在于: 所述对所需 训练数据进行动态分配包括, 构建异构分布式GPU服 务器, 并采用参数服 务器架构进行网络通信; 采用每秒可计算样本数量对所述所有计算节点的性能数据进行量 化指标; 根据性能按照比例对所述 性能数据进行 数据切分。 3.如权利要求1或2所述的面向异构集群加速分布式训练的方法, 其特 征在于: 包括, 控制节点根据采集到的所有计算节点的性 能数据进行训练参数调节, 需要调节的所述 训练参数包括每 个计算节点 一轮epoc h中所需的数据切分、 每 个iterati on局部更新次数。 4.如权利要求3所述的面向异构集群加速分布式训练 的方法, 其特征在于: 所述深入强 化学习策略包括状态空间、 动作空间以及奖励函数。 5.如权利要求4所述的面向异构集群加速分布式训练 的方法, 其特征在于: 所述状态 空 间包括, 当前的培训进度, 包括每 个工人的全局同步指标和 局部迭代指标; 当前的培训准确性或培训损耗; 等待其他工人的成本时间。 6.如权利要求5所述的面向异构集群加速分布式训练 的方法, 其特征在于: 所述动作空 间包括, Agent每个epoch开始时对动作值进行调整, 所述动作值包括增加、 减少和不改变, 相对 应的数学定义为将所述 最小公倍数 得到的值调整为+1倍、 ‑1倍、 0倍。 7.如权利要求4~6任一所述的面向异构集群加速分布式训练的方法, 其特征在于: 所 述奖励函数包括, 利用t2时刻的精度和t1时刻的精度求 解增量精度 其中, 表示t2‑t1时刻的增量精度, acct2表示t2时刻的精度, acct1表示t1时刻的精 度; 基于所述增量精度 和训练的步数step, 求出增量 率p, 其中, p表示增量率, 表示t2‑t1时刻的增量精度, t2、 t1表示时间, step表示训练的 步数; 基于所述增量 率p和历史记录中増量 率最佳值p*获取增长率r,权 利 要 求 书 1/2 页 2 CN 115081619 A 2其中, p表示增量 率, p*表示历史记录中増量 率最佳值, r 表示增长率。 8.如权利要求7 所述的面向异构集群加速分布式训练的方法, 其特 征在于: 还 包括, 利用增长率r判断Agent行动是否有效; 若增长率r大于1, 则行动有效, 设置奖励值 为1; 若增长率r等于1, 则设置奖励值 为0; 若增长率r小于1, 则行动无效, 设置奖励值 为‑1。 9.如权利要求8所述的面向异构集群加速分布式训练的方法, 其特 征在于: 包括, 利用所述最小公倍数算法算出次优 的局部更新次数, 使得每个局部iteration的等待 时间最小, 并将所述次优的局部更新次数分配给每 个计算节点。 所述每个计算节点相互独立地进行训练, 直至局部更新 次数满足所述 次优的局部更新 次数, 并将梯度数据上传至所述 参数服务器; 循环迭代, 直至训练epoc h达到设定值。 10.一种采用如权利要求1、 2、 4、 5、 6任一所述的面向异构集群加速分布式训练的方法 的系统, 其特 征在于, 包括: 数据动态分配模块、 负载均衡模块以及屏障控制模块; 数据动态分配模块, 负责切分训练数据; 负载均衡模块, 负责指定每 个计算节点本地更新的次数; 屏障控制模块, 负责动态调节计算节点上传 梯度数据的时间节点。权 利 要 求 书 2/2 页 3 CN 115081619 A 3

.PDF文档 专利 一种面向异构集群加速分布式训练的方法及系统

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向异构集群加速分布式训练的方法及系统 第 1 页 专利 一种面向异构集群加速分布式训练的方法及系统 第 2 页 专利 一种面向异构集群加速分布式训练的方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:29:53上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。