说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210586834.X (22)申请日 2022.05.27 (71)申请人 内蒙古工业大 学 地址 010080 内蒙古自治区呼和浩特市土 默特左旗内蒙古工业大 学金川校区 (72)发明人 万剑雄 陈丁 李雷孝 刘楚仪  (74)专利代理 机构 西安智大知识产权代理事务 所 61215 专利代理师 段俊涛 (51)Int.Cl. H05K 7/20(2006.01) G06F 17/15(2006.01) (54)发明名称 数据中心空调的分布式智能控制方法 (57)摘要 数据中心空调的分布式智能控制方法, 对于 数据中心机房内部建立马尔科夫博弈模型, 以多 智能体强化学习算法求解模型对空调的送风速 度与送风 温度进行控制。 马尔科夫博弈模型由智 能体数量、 环境状态、 动作空间, 奖励函数、 折扣 因子五个部分组成。 在不断与环 境的交互过程中 确定最优策略, 最优策略使模型的累计奖励最大 化。 算法会对环境进行探索和学习, 并且根据反 馈回的奖励信号调整自身策略。 奖励信号会兼顾 到空调制冷所产生的功耗, 与房间设备的温度状 况。 在多智 能体强化学习算法控制下, 多台空调 能够共享其控制策略, 从而实现协作制冷, 提高 数据中心的制冷效率。 与其他的数据中心制冷控 制方案相比, 本发明扩展性强, 部署容易, 并且能 够达到更好的制冷效果。 权利要求书3页 说明书6页 附图1页 CN 115103562 A 2022.09.23 CN 115103562 A 1.一种数据中心空调的分布式智能控制方法, 其特 征在于, 包括如下步骤: 步骤1, 监测数据中心每台机架的进风温度, 对所有监测数据进行收集, 使每台空调都 能观测到所有机架的进风温度; 步骤2, 以每台空调作为一个智能体, 将数据中心制冷控制问题建模为一个马尔科夫博 弈模型, 模 型包括智能体的数量n, 环 境状态S、 动作空间A、 奖励函数R以及折扣因子γ; 其中 智能体代表马尔科夫博弈模 型中的决策者, 即数据中心的空调, 环 境状态S用于对当前模型 的环境进行描述, 折扣因子γ的大小决定预期产生的结果对当前决策影响的大小; 第i个智能体的状态空间表示为Si=(tran1,tran2,...,tranm), m为机架数量, tranm为 第m台机架的进风温度; 第i个智能体的动作空间表示为Ai, 在执行动作时从动作空间选择动作ai=(fi,ti),ai ∈Ai, fi和ti分别表示第i台空调的送风速度与送风温度, 且fi和ti在设定范围内可调节; 第i个智能体的奖励函数Ri由温度违约惩罚函数cost与相应的空调功耗po weri组成; 智能体之间的动作应当避免冲突并通过协作获得 更大的长期回报, 优化问题 表示为 其中, γt是t步之后奖励的折扣因子, t表示从算法开始向后执行了t步, Rt+1表示t+1时 刻与环境交 互所得到的的奖励; 通过求解模型优化问题得到其最优的动作, 即空调送风速度与送风温度的最优设定 点, 以降低数据中心房间的制冷功耗作为优化 目标, 并且在降低制冷功耗的同时保证设备 能够在安全的温度下正常运行; 步骤3, 求解模型, 通过探索和学习机架的进风温度与空调能耗, 动态调整空调的送风 速度与送风温度, 得到一个既能降低空调能耗, 又能满足制冷需要的最优策略, 并依据该策 略实现数据中心制冷。 2.根据权利要求1所述数据中心空调的分布式智能控制方法, 其特征在于, 所述步骤2, 动作空间Ai所述设定范围内连续, 表示 为: filow≤fi≤fihigh filow和filow分别为第i台空调的最小送风速度和最大送风速度, 和 分别为第i台 空调的最小送风温度和最大送风温度; 所述空调功耗po weri是第i台空调在执 行动作ai=(fi,ti)之后消耗的功耗, 表示 为: poweri=f(ai) 函数f表示空调送风速度与送风温度和所产生的功耗之间的线性关系。 3.根据权利要求1所述数据中心空调的分布式智能控制方法, 其特征在于, 所述温度违 约惩罚函数cost是对超 出安全阈值 温度的动作设置的相应惩罚, 每台空调的温度违约惩罚 函数cost均相同, cost值越大, 表示温度违约的次数越多, 违约的程度越大, cost 表示为: 权 利 要 求 书 1/3 页 2 CN 115103562 A 2tthreshold表示安全阈值温度, trani表示空调在执行当前动作之后某个机架的进风温度, 当trano<=tthreshold时说明第o台机架的进风温度并未违约, 此时惩罚函数为0, 当trano> tthreshold时表示第o台机架的进风温度 超过了安全阈值温度, 此时惩罚为trano‑tthreshold, 所 有机架违约惩罚的累加即为 惩罚函数。 4.根据权利要求1所述数据中心空调的分布式智能控制方法, 其特征在于, 所述步骤2, 第i个智能体的奖励函数Ri表示为 Ri=α cost+(1 ‑α )poweri×w α表示cost与poweri在奖励中所占权重, w是对poweri进行缩放的系数, 缩放以保证 poweri与cost在一个量级上。 5.根据权利要求1所述数据中心空调的分布式智能控制方法, 其特征在于, 所述步骤2 中, 根据奖励函数R计算联合动作值 函数Q(s,a): 其中snext表示下一时刻的状态, a是由每台空调的动作ai组成的联合动作, 利用Q(s,a) 指导更新策略网络 。 6.根据权利要求5所述数据中心空调的分布式智能控制方法, 其特征在于, 所述步骤3 中, 采用多智能体强化学习 算法与环境进行交互, 并将所得样本transition(s,a,r,snext) 存储, 以神经网络来近似Q(s,a), 通过 策略网络 输出行为。 7.根据权利要求6所述数据中心空调的分布式智能控制方法, 其特征在于, 所述多智能 体强化学习算法, 使用Actor ‑Critic框架, 其中Critic网络用于输出Q值, Actor网络用于输 出行为; 每个智能体按照ε ‑greedy算法的方式, 由其各自的Actor网络以当前状态作为输 入, 并以(1 ‑ε )的概率输出相应空调在当前状态下对应的送 风速度与送 风温度ai=(fi,ti), 同时以概率 ε生 成用于探索的随机动作a ’i=(f’i,t’i); 空调执行Actor网络所产生的动作, 得到下一状态Snext, 根据ai=(fi,ti)以及Snext计算所得瞬时奖励, 最后将其当前状态s、 联合 动作a={a1,a2,...ai...,an}、 下一状态snext以及瞬时奖励r存入经验回放池中, 当前状态转 移到下一状态, 进行 下一轮的采样。 8.根据权利要求7所述数据中心空调的分布式智能控制方法, 其特征在于, 所述多智能 体强化学习算法引入online网络与target网络, online网络与target网络结构相同参数不 同, 通过online网络与target网络使一段时间内的targetQ值保持固定, 从而降低onlineQ 值与targetQ 值的相关性, 提高算法稳定性。 9.根据权利要求8所述数据中心空调的分布式智能控制方法, 其特征在于, 所述多智能 体强化学习 算法, 在训练时, 每个智能体从经验 回放池中抽取一定数量的样本tr ansition (s,a,r,snext), 通过样本计算Critic网络与Actor网络的loss并更新online网络的参数, Critic网络对l oss function的更新公式为: θi表示第i个智能体的Critic网络的参数, P表示所采样本的个数, j表示训练中从经验回放池所采样的第j个样本, sj表示第j个样本中的状态, 表示在 第j个样本中, 第i台空调所采取的制冷策略, n表示 空调的数量; μ表示使用online 网络, 权 利 要 求 书 2/3 页 3 CN 115103562 A 3

.PDF文档 专利 数据中心空调的分布式智能控制方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据中心空调的分布式智能控制方法 第 1 页 专利 数据中心空调的分布式智能控制方法 第 2 页 专利 数据中心空调的分布式智能控制方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 15:41:22上传分享
友情链接
交流群
  • //public.wenku.github5.com/wodemyapi/22.png
-->
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。