Learning-Based MPC for Fuel Efficient Control of Autonomous Vehicles with Discrete Gear Selection

📄 arXiv: 2503.11359v3 📥 PDF

作者: Samuel Mallick, Gianpietro Battocletti, Qizhang Dong, Azita Dabiri, Bart De Schutter

分类: eess.SY

发布日期: 2025-03-14 (更新: 2025-05-28)

备注: 7 pages, 3 figures, accepted for publication in L-CSS. Code available at https://github.com/SamuelMallick/mpcrl-vehicle-gears


💡 一句话要点

提出基于学习的MPC方法,用于自主车辆燃油效率控制与离散档位选择

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 模型预测控制 强化学习 自主驾驶 燃油效率 档位选择

📋 核心要点

  1. 现有MPC方法在自主驾驶车辆燃油效率控制中,速度和档位联合优化计算量大,难以实时实现。
  2. 论文提出一种学习型MPC方案,通过学习策略预先选择档位,简化MPC的在线优化问题。
  3. 仿真结果表明,该方法在降低计算负担的同时,保持了与纯MPC联合优化相当的性能。

📝 摘要(中文)

本文提出了一种基于学习的MPC方案,旨在解决自主驾驶车辆燃油效率控制中速度和档位联合优化带来的计算负担。该方案训练一个策略来选择并固定MPC控制器预测范围内的档位,从而将在线求解问题简化为连续优化问题。仿真结果表明,与纯粹基于MPC的联合优化相比,该方法显著降低了计算负担,并保持了相当的性能。

🔬 方法详解

问题定义:论文旨在解决自主驾驶车辆在燃油效率控制中,速度和离散档位联合优化带来的计算复杂度过高的问题。传统的MPC方法在同时优化连续动力学和离散档位时,计算量巨大,难以满足实时性要求。

核心思路:论文的核心思路是利用学习方法预先确定MPC预测范围内的档位序列,从而将原有的混合整数优化问题转化为一个纯粹的连续优化问题。通过离线训练一个策略网络来预测最优档位,显著降低在线计算负担。

技术框架:该方法包含离线训练和在线控制两个阶段。离线训练阶段,使用强化学习或其他学习算法训练一个策略网络,该网络以车辆状态和环境信息为输入,输出预测范围内的档位序列。在线控制阶段,MPC控制器首先使用训练好的策略网络选择档位,然后仅优化车辆速度等连续变量,从而实现燃油效率控制。

关键创新:该方法最重要的创新在于将离散档位选择问题从在线优化中解耦出来,通过学习方法进行预先预测。这避免了在MPC的每个控制周期内进行复杂的混合整数优化,从而显著降低了计算复杂度。与传统的MPC方法相比,该方法能够在保证性能的同时,实现更快的控制频率。

关键设计:策略网络的具体结构未知,但可以推测其输入包括车辆速度、加速度、位置、道路坡度等信息,输出为预测范围内的档位序列。损失函数的设计需要考虑燃油消耗、车辆平稳性等因素。MPC控制器的设计需要与策略网络相协调,确保在固定档位的情况下,能够实现最优的速度控制。

🖼️ 关键图片

fig_0
img_1

📊 实验亮点

仿真结果表明,所提出的学习型MPC方法在计算负担方面显著优于传统的MPC联合优化方法,具体降低幅度未知。同时,该方法在燃油效率方面保持了与传统方法相当的性能,表明其在实际应用中具有很高的潜力。

🎯 应用场景

该研究成果可应用于各种类型的自主驾驶车辆,尤其是在需要考虑燃油经济性的场景下,如长途货运、城市公交等。通过降低计算负担,该方法有望实现更高效、更环保的自主驾驶控制,并为未来的智能交通系统提供技术支持。

📄 摘要(原文)

Co-optimization of both vehicle speed and gear position via model predictive control (MPC) has been shown to offer benefits for fuel-efficient autonomous driving. However, optimizing both the vehicle's continuous dynamics and discrete gear positions may be too computationally intensive for a real-time implementation. This work proposes a learning-based MPC scheme to address this issue. A policy is trained to select and fix the gear positions across the prediction horizon of the MPC controller, leaving a significantly simpler continuous optimization problem to be solved online. In simulation, the proposed approach is shown to have a significantly lower computation burden and a comparable performance, with respect to pure MPC-based co-optimization.