说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210733504.9 (22)申请日 2022.06.27 (65)同一申请的已公布的文献号 申请公布号 CN 114791856 A (43)申请公布日 2022.07.26 (73)专利权人 北京瑞莱智慧科技有限公司 地址 100083 北京市海淀区中关村东路1号 院8号楼19层A1901 (72)发明人 陈宁 其他发明人请求 不公开姓名  (74)专利代理 机构 北京汇鑫君达知识产权代理 有限公司 1 1769 专利代理师 黄启法 (51)Int.Cl. G06F 9/48(2006.01) G06F 9/50(2006.01)审查员 穆滢 (54)发明名称 基于K8s的分布式训练任务处理方法、 相关 设备及介质 (57)摘要 本申请实施例公开了一种基于K8s的分布式 训练任务处理方法、 相关设备及介质。 该方法应 用于K8s集群, K8s集群包 括资源构建组件和任务 管理组件, 方法包括: 资源构建组件获取用户提 交的分布式训练任务, 分布式训练任务包括训练 逻辑以及节 点部署信息; 在训练逻辑添加启动代 码; 将分布式训练任务提交至任务管理组件; 根 据节点部署信息在K8s集群中创建映射 关系和多 个服务节 点; 各服务节点根据映射关系确定对应 的目标启动逻辑, 并触发目标启动逻辑, 以启动 对应的子训练任务。 本方案创建服务节点与启动 逻辑的映射 关系, 服务节点可以根据该映射关系 确定对应的启动逻辑, 通过触发该启动逻辑启动 对应的子训练任务, 可以实现分布式任务的自动 启动。 权利要求书3页 说明书18页 附图7页 CN 114791856 B 2022.08.26 CN 114791856 B 1.一种基于K8s的分布式训练任务处理方法, 其特征在于, 所述方法应用于K8 s集群, 所 述K8s集群包括资源构建组件和任务管理 组件, 所述方法包括: 所述资源构建组件获取用户提交 的分布式训练任务, 所述分布式训练任务包括分布式 训练任务的训练逻辑以及各子训练任务的节点部署信息; 所述资源构建组件根据预设的启动代码生成规则在所述训练逻辑中添加启动代码; 所述资源构建组件将所述分布式训练任务 提交至所述任务管理 组件; 所述任务管理组件根据 所述节点部署信 息在所述K8s集群中创建映射关系和多个服务 节点, 所述映射关系包括服务节点与启动代码中的启动逻辑的映射关系, 所述服务节点中 部署一个子训练任务, 所述子训练任务对应所述启动代码中的一个启动逻辑; 各服务节点根据所述映射关系确定对应的目标启动逻辑, 并触发所述目标启动逻辑, 以启动对应的子训练任务。 2.根据权利要求1所述的方法, 其特征在于, 当所述分布式训练任务携带有任务同步启 动信息时, 所述各服务节点根据所述映射关系确定对应的目标启动逻辑, 并触发所述 目标 启动逻辑, 以启动对应的子训练任务, 包括: 各服务节点根据所述映射关系读取对应的目标启动逻辑; 当各服务节点均读取到对应的目标启动逻辑 时, 各服务节点同时触发对应的目标启动 逻辑, 以同时启动对应的子训练任务。 3.根据权利要求1所述的方法, 其特征在于, 所述训练逻辑包括各子训练任务分别对应 的子训练逻辑, 所述启动代码包括各子训练任务分别对应的启动逻辑, 所述资源构建组件 根据预设的启动代码生成规则在所述训练逻辑中添加启动代码, 包括: 所述资源构建组件 对各子训练逻辑中的运行函数进行序列化处 理; 将所述进行 过序列化处 理的运行函数作为启动逻辑添加至对应的子训练逻辑中。 4.根据权利要求1所述的方法, 其特征在于, 所述各服务节点根据 所述映射关系确定对 应的目标启动逻辑, 并触发所述目标启动逻辑, 以启动对应的子训练任务之后, 所述方法还 包括: 所述任务管理组件监控各子训练任务的运行状态, 并将所述运行状态写入运行日志 中。 5.根据权利要求4所述的方法, 其特征在于, 所述任务管理组件监控各子训练任务的运 行状态之后, 所述方法还 包括: 当监控到处于异常运行状态的异常子训练任务 时, 所述任务管理组件确定所述异常子 训练任务对应的目标任务类型; 所述任务管理组件根据预设的任务类型与重启机制的对应关系确定与所述目标任务 类型对应的目标重启机制; 所述任务管理 组件根据所述目标重启机制重启所述异常子训练任务对应的服 务节点。 6.根据权利要求5所述的方法, 其特征在于, 当所述异常子训练任务为强化学习中的 learner任务时, 所述任务管理组件根据所述目标重启机制重启所述异常子训练任务对应 的服务节点, 包括: 所述任务管理组件从learner缓存中读取所述异常子训练任务对应的目标训练数据, 所述learner缓存用于实时存 储对应子训练任务的训练数据;权 利 要 求 书 1/3 页 2 CN 114791856 B 2所述任务管理 组件根据所述目标训练数据重启所述异常子训练任务对应的服 务节点; 当所述异常子训练任务为强化学习中的actor任务时, 所述任务管理组件根据所述目 标重启机制重启所述异常子训练任务对应的服 务节点, 包括: 所述任务管理组件在对应的服务节点中直接重启所述异常子训练任务对应的服务节 点。 7.根据权利要求1所述的方法, 其特征在于, 所述子训练任务包括强化学习任务的 actor任务和learner任务, 所述各服务节点根据所述映射关系确定对应的目标启动逻辑, 并触发所述目标启动逻辑, 以启动对应的子训练任务之后, 所述方法还 包括: 所述actor任务对应的服务节点获取到训练样本之后, 将所述训练样本存储至对应的 actor缓存中; 所述learner任务对应的服务节点根据预设的学习速度从所述actor缓存中读取所述 训练样本进行 学习。 8.根据权利要求1至7中任一项所述的方法, 其特征在于, 所述节点部署信息包括服务 节点部署信息和代码拉取节点部署信息, 所述任务管理组件根据所述节点部署信息在所述 K8s集群中创建映射关系和多个服 务节点, 包括: 所述任务管理组件根据 所述服务节点部署信 息在所述K8s集群中创建所述映射关系和 多个所述 服务节点; 所述任务管理组件根据 所述服务节点部署信 息在所述K8s集群中创建所述映射关系和 多个所述 服务节点之后, 所述方法还 包括: 所述任务管理组件根据所述代码拉取节点部署信息在对应服务节点中部署代码拉取 容器, 所述代码拉取容器用户供用户进行对应服 务节点的代码拉取。 9.根据权利要求8所述的方法, 其特征在于, 所述节点部署信 息还包括第 三方资源依赖 需求信息, 所述任务管理组件根据所述服务节点部署信息在所述K8s集群中创建所述映射 关系和多个所述 服务节点之后, 所述方法还 包括: 所述任务管理组件在与所述第三方资源依赖需求信息对应的服务节点中安装所述第 三方资源依赖需求信息所描述的第三方资源。 10.一种基于K8s的分布式训练任务处理系统, 其特征在于, 所述基于K8s的分布式训练 任务处理系统包括资源构建组件、 任务管理 组件以及多个服 务节点, 其中: 所述资源构建组件, 用于获取用户提交的分布式训练任务, 所述分布式训练任务包括 分布式训练任务的训练逻辑以及各子训练任务的节点部署信息; 根据预设的启动代码生成 规则在所述训练逻辑中添加启动代码; 将所述分布式训练任务 提交至所述任务管理 组件; 所述任务管理组件, 用于根据所述节点部署信息在K8s集群中创建映射关系和多个所 述服务节点, 所述映射关系包括服务节点与启动代码中的启动逻辑的映射关系, 所述服务 节点中部署一个子训练任务, 所述子训练任务对应所述启动代码中的一个启动逻辑; 各所述服务节点, 用于根据所述映射关系确定对应的目标启动逻辑, 并触发所述目标 启动逻辑, 以启动对应的子训练任务。 11.一种计算机设备, 其特征在于, 所述计算机设备包括存储器及处理器, 所述存储器 上存储有计算机程序, 所述处理器执行所述计算机程序时实现如权利要求1 ‑9中任一项所 述的方法。权 利 要 求 书 2/3 页 3 CN 114791856 B 3

.PDF文档 专利 基于K8s的分布式训练任务处理方法、相关设备及介质

文档预览
中文文档 29 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于K8s的分布式训练任务处理方法、相关设备及介质 第 1 页 专利 基于K8s的分布式训练任务处理方法、相关设备及介质 第 2 页 专利 基于K8s的分布式训练任务处理方法、相关设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:31:05上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。