Real-world validation of safe reinforcement learning, model predictive control and decision tree-based home energy management systems
作者: Julian Ruddick, Glenn Ceusters, Gilles Van Kriekinge, Evgenii Genov, Cedric De Cauwer, Thierry Coosemans, Maarten Messagie
分类: eess.SY, cs.AI, cs.LG, cs.NE
发布日期: 2024-08-14 (更新: 2024-11-25)
备注: Accepted version Energy and AI: https://doi.org/10.1016/j.egyai.2024.100448
DOI: 10.1016/j.egyai.2024.100448
💡 一句话要点
验证安全强化学习、模型预测控制和决策树在家庭能源管理系统中的实际应用
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 能源管理 模型预测控制 决策树 安全层
📋 核心要点
- 现有能源管理方法缺乏实际验证,尤其是在真实家庭环境中。
- 论文提出结合安全层的强化学习和决策树控制策略,用于家庭能源管理。
- 实验表明,决策树方法与模型预测控制性能接近,强化学习有提升空间。
📝 摘要(中文)
本文对基于机器学习的能源管理方法进行了实际验证,特别是带有安全层的强化学习(OptLayerPolicy)和生成决策树控制策略的元启发式算法(TreeC)。这些方法此前仅在计算机模拟中展示了潜力。本文将这些方法与模型预测控制和简单的基于规则的控制基准进行比较,实验在四个住宅房屋的电气装置复制品上进行,每个复制品都有自己的电池、光伏和动态负载系统,模拟不可控的电力负载和可控的电动汽车充电器。结果表明,简单规则、TreeC和基于模型预测控制的方法实现了相似的成本,差异仅为0.6%。强化学习方法仍在训练阶段,成本比其他方法高25.5%。额外的模拟表明,通过使用更具代表性的TreeC训练数据集,并解决模型预测控制实现中因依赖来自各种来源的准确数据而导致的错误,可以进一步降低成本。OptLayerPolicy安全层允许在实际环境中安全地在线训练强化学习代理,前提是具有准确的约束函数公式。尽管如此,所提出的安全层方法仍然容易出错,但发现对所有研究的方法都有益。TreeC方法确实需要构建一个逼真的模拟进行训练,它表现出最安全的操作性能,超过电网限制仅27.1 Wh,而强化学习为593.9 Wh。
🔬 方法详解
问题定义:现有基于机器学习的能源管理方法,如强化学习和决策树,虽然在仿真环境中表现出潜力,但在实际家庭能源管理系统中缺乏充分的验证。现有方法在实际应用中可能面临数据不准确、环境变化等挑战,导致性能下降甚至安全问题。
核心思路:论文的核心思路是将强化学习与安全层(OptLayerPolicy)相结合,以确保在实际环境中进行在线训练时的安全性。同时,采用元启发式算法生成决策树控制策略(TreeC),并与模型预测控制(MPC)和简单的规则控制进行对比,评估其在实际应用中的性能。
技术框架:整体框架包括四个复制的住宅房屋,每个房屋配备电池、光伏系统和动态负载(包括电动汽车充电器)。实验对比了四种控制策略:简单规则、TreeC、MPC和带有安全层的强化学习(OptLayerPolicy)。强化学习代理在实际环境中进行在线训练,安全层用于约束其行为,防止超出安全范围。
关键创新:关键创新在于将安全层(OptLayerPolicy)引入强化学习,使其能够在实际环境中安全地进行在线训练。此外,论文还验证了基于元启发式算法生成的决策树控制策略(TreeC)在实际家庭能源管理系统中的有效性。
关键设计:OptLayerPolicy安全层的关键在于准确的约束函数公式,用于定义安全的操作范围。TreeC方法的关键在于构建一个逼真的仿真环境进行训练,以生成有效的决策树控制策略。MPC方法的性能依赖于来自各种来源的准确数据,包括天气预报、电价等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TreeC、MPC和简单规则控制策略的成本相近,差异仅为0.6%。强化学习方法由于仍在训练阶段,成本较高,但具有提升潜力。TreeC方法在安全性方面表现最佳,超过电网限制仅27.1 Wh,而强化学习为593.9 Wh。仿真结果表明,通过优化训练数据和解决MPC的数据依赖问题,可以进一步降低成本。
🎯 应用场景
该研究成果可应用于智能家居、能源管理系统、虚拟电厂等领域。通过优化家庭能源使用,降低能源成本,提高能源利用效率,并促进可再生能源的利用。未来可进一步推广到社区、城市等更大规模的能源管理系统中,实现更智能、更高效的能源分配和利用。
📄 摘要(原文)
Recent advancements in machine learning based energy management approaches, specifically reinforcement learning with a safety layer (OptLayerPolicy) and a metaheuristic algorithm generating a decision tree control policy (TreeC), have shown promise. However, their effectiveness has only been demonstrated in computer simulations. This paper presents the real-world validation of these methods, comparing against model predictive control and simple rule-based control benchmark. The experiments were conducted on the electrical installation of 4 reproductions of residential houses, which all have their own battery, photovoltaic and dynamic load system emulating a non-controllable electrical load and a controllable electric vehicle charger. The results show that the simple rules, TreeC, and model predictive control-based methods achieved similar costs, with a difference of only 0.6%. The reinforcement learning based method, still in its training phase, obtained a cost 25.5\% higher to the other methods. Additional simulations show that the costs can be further reduced by using a more representative training dataset for TreeC and addressing errors in the model predictive control implementation caused by its reliance on accurate data from various sources. The OptLayerPolicy safety layer allows safe online training of a reinforcement learning agent in the real-world, given an accurate constraint function formulation. The proposed safety layer method remains error-prone, nonetheless, it is found beneficial for all investigated methods. The TreeC method, which does require building a realistic simulation for training, exhibits the safest operational performance, exceeding the grid limit by only 27.1 Wh compared to 593.9 Wh for reinforcement learning.