Scenario-based Thermal Management Parametrization Through Deep Reinforcement Learning

📄 arXiv: 2408.02022v1 📥 PDF

作者: Thomas Rudolf, Philip Muhl, Sören Hohmann, Lutz Eckstein

分类: cs.LG, cs.AI, cs.CE, eess.SY

发布日期: 2024-08-04

备注: 8 pages, 7 figures, 2 tables, 1 algorithm, 10 equations, conference


💡 一句话要点

提出基于深度强化学习的热管理参数自动整定方法,提升电动汽车热管理控制器的性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 热管理系统 参数整定 电动汽车 自动驾驶 车辆控制 仿真环境

📋 核心要点

  1. 现有热管理参数整定方法耗时、依赖人工,且需要大量实车测试,效率低下。
  2. 提出一种基于深度强化学习的参数整定方法,利用自动场景生成提高鲁棒性,并结合图像处理技术理解参数集。
  3. 在阀门控制器参数整定任务中,该方法在真实车辆测试中表现出与基线方法相当的性能。

📝 摘要(中文)

本文提出了一种基于学习的整定方法,用于解决电池电动汽车热管理系统对高级控制的需求。该方法利用自动场景生成来增强车辆使用场景的鲁棒性。深度强化学习智能体处理整定任务的上下文,并结合基于图像的嵌入式参数集解释。论文将该方法应用于阀门控制器参数整定任务,并在真实车辆测试中验证了其有效性。结果表明,该方法具有与基线方法相媲美的性能。该创新方法有助于推动热管理功能的虚拟开发,并在汽车行业大规模参数整定方面具有广阔的应用前景。

🔬 方法详解

问题定义:论文旨在解决电池电动汽车热管理系统中控制器参数整定问题。传统方法依赖于大量的人工经验和实车测试,耗时且成本高昂,难以适应各种复杂的工况。此外,现有方法的鲁棒性较差,难以保证在不同驾驶场景下的性能。

核心思路:论文的核心思路是利用深度强化学习(DRL)自动学习最优的控制器参数。通过将参数整定过程建模为一个马尔可夫决策过程(MDP),DRL智能体可以在模拟环境中与热管理系统进行交互,并根据环境反馈不断优化参数。这种方法可以减少对人工经验的依赖,并提高参数整定的效率和鲁棒性。

技术框架:该方法的技术框架主要包括以下几个模块:1) 自动场景生成模块,用于生成各种不同的车辆使用场景,以提高DRL智能体的泛化能力。2) 热管理系统仿真环境,用于模拟车辆的热管理系统,并为DRL智能体提供环境反馈。3) DRL智能体,用于学习最优的控制器参数。该智能体接收当前场景信息和参数集图像,输出控制动作,并根据环境反馈更新策略。4) 参数集图像编码模块,将嵌入式参数集转化为图像,供DRL智能体理解。

关键创新:该方法的主要创新点在于:1) 提出了一种基于DRL的自动参数整定方法,可以减少对人工经验的依赖。2) 利用自动场景生成技术,提高了DRL智能体的鲁棒性。3) 采用图像编码的方式表示参数集,使得DRL智能体可以更好地理解参数之间的关系。4) 将该方法应用于实际的阀门控制器参数整定任务,并进行了实车测试,验证了其有效性。

关键设计:论文中,DRL智能体采用了深度Q网络(DQN)结构,并使用经验回放和目标网络等技术来提高训练的稳定性。奖励函数的设计至关重要,需要综合考虑控制性能、能量消耗和舒适性等因素。参数集图像编码模块将参数值映射到像素值,并使用卷积神经网络提取图像特征。具体的网络结构和超参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在真实车辆测试中验证了该方法的有效性,结果表明,该方法可以获得与基线方法相媲美的性能。虽然论文中没有给出具体的性能数据和提升幅度,但实车测试的结果表明,该方法具有实际应用价值。该研究为电动汽车热管理系统的参数整定提供了一种新的思路和方法。

🎯 应用场景

该研究成果可广泛应用于电动汽车热管理系统的控制器参数整定,降低开发成本,缩短开发周期,并提高控制器的性能和鲁棒性。此外,该方法还可以推广到其他汽车电子控制单元(ECU)的参数整定,例如电机控制器、电池管理系统等。该研究有助于推动汽车行业的智能化和自动化发展。

📄 摘要(原文)

The thermal system of battery electric vehicles demands advanced control. Its thermal management needs to effectively control active components across varying operating conditions. While robust control function parametrization is required, current methodologies show significant drawbacks. They consume considerable time, human effort, and extensive real-world testing. Consequently, there is a need for innovative and intelligent solutions that are capable of autonomously parametrizing embedded controllers. Addressing this issue, our paper introduces a learning-based tuning approach. We propose a methodology that benefits from automated scenario generation for increased robustness across vehicle usage scenarios. Our deep reinforcement learning agent processes the tuning task context and incorporates an image-based interpretation of embedded parameter sets. We demonstrate its applicability to a valve controller parametrization task and verify it in real-world vehicle testing. The results highlight the competitive performance to baseline methods. This novel approach contributes to the shift towards virtual development of thermal management functions, with promising potential of large-scale parameter tuning in the automotive industry.