Actor-Critic Cooperative Compensation to Model Predictive Control for Off-Road Autonomous Vehicles Under Unknown Dynamics

📄 arXiv: 2503.00577v1 📥 PDF

作者: Prakhar Gupta, Jonathon M Smereka, Yunyi Jia

分类: cs.RO

发布日期: 2025-03-01

备注: 7 pages, Accepted at 2025 IEEE ICRA


💡 一句话要点

提出Actor-Critic协同补偿MPC,解决未知动力学下无人越野车辆控制问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 越野自动驾驶 模型预测控制 深度强化学习 Actor-Critic 未知动力学

📋 核心要点

  1. 现有方法难以对复杂地形下的车辆动力学进行精确建模,导致越野自动驾驶控制性能下降。
  2. 提出Actor-Critic协同补偿MPC,利用深度强化学习补偿模型预测控制器的不足,实现更鲁棒的控制。
  3. 实验表明,该控制器在多种未知地形下优于单独的MPC和强化学习控制器,且所需训练数据更少。

📝 摘要(中文)

本研究提出了一种Actor-Critic协同补偿模型预测控制器(AC3MPC),旨在解决未知系统动力学问题。为了避免对高度复杂动力学进行建模的困难,并确保实时的控制可行性和性能,本研究在协同框架中使用深度强化学习和模型预测控制器来处理未知的动力学。基于模型的控制器承担主要角色,同时两个控制器都获得了关于彼此的预测信息。这提高了跟踪性能,并保留了模型预测控制器固有的鲁棒性。我们在代表沙质可变形土壤、沙质和岩石土壤以及粘性粘土状可变形土壤的未知可变形地形上评估了该框架在越野自动驾驶中的应用。研究结果表明,我们的控制器在统计上优于独立的基于模型和基于学习的控制器,分别高达29.2%和10.2%。该框架很好地推广到各种先前未见过的地形特征,以较低的误差跟踪纵向参考速度。此外,与纯粹基于学习的控制器相比,这需要明显更少的训练数据,同时即使在训练不足的情况下也能提供更好的性能。

🔬 方法详解

问题定义:论文旨在解决越野环境下无人车辆在未知动力学下的精确控制问题。现有方法,如纯模型预测控制(MPC),难以准确建模复杂地形下的车辆动力学,导致控制性能下降。而纯强化学习方法需要大量训练数据,且泛化能力有限。

核心思路:论文的核心思路是将模型预测控制(MPC)与深度强化学习中的Actor-Critic方法相结合,形成一个协同控制框架。MPC作为主要控制器,负责车辆的基本控制,而Actor-Critic网络则学习补偿MPC的不足,处理未知的动力学影响。通过协同工作,既能保证控制的鲁棒性,又能提高控制精度。

技术框架:AC3MPC的整体架构包含两个主要模块:模型预测控制器(MPC)和Actor-Critic网络。MPC基于车辆的简化动力学模型进行预测和控制,Actor网络根据当前状态输出控制补偿量,Critic网络评估Actor网络的性能并提供反馈。两个控制器协同工作,MPC提供基础控制,Actor-Critic网络进行动态补偿。

关键创新:该方法最重要的创新点在于Actor-Critic网络与MPC的协同方式。不同于传统的将强化学习作为MPC的参数调节器,该方法将Actor-Critic网络作为MPC的补偿器,直接作用于控制量,从而更有效地处理未知的动力学影响。此外,两个控制器互相提供预测信息,进一步提升了控制性能。

关键设计:Actor和Critic网络采用深度神经网络结构,输入包括车辆状态(位置、速度、姿态等)和MPC的预测信息,输出为控制补偿量和价值函数。损失函数包括跟踪误差和控制量惩罚项,用于训练Actor和Critic网络。MPC采用二次规划求解器,优化目标为最小化跟踪误差和控制量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AC3MPC在三种不同的未知地形下均优于单独的MPC和强化学习控制器。与单独的MPC相比,跟踪性能提升高达29.2%;与单独的强化学习控制器相比,跟踪性能提升高达10.2%。此外,AC3MPC所需的训练数据明显少于纯强化学习控制器,即使在训练不足的情况下也能提供更好的性能,验证了其良好的泛化能力。

🎯 应用场景

该研究成果可应用于各种越野自动驾驶场景,例如农业机器人、矿山车辆、搜救机器人等。通过提高在复杂地形下的控制精度和鲁棒性,可以显著提升这些车辆的工作效率和安全性。此外,该方法还可以推广到其他具有未知动力学特性的控制系统,例如水下机器人和飞行器。

📄 摘要(原文)

This study presents an Actor-Critic Cooperative Compensated Model Predictive Controller (AC3MPC) designed to address unknown system dynamics. To avoid the difficulty of modeling highly complex dynamics and ensuring realtime control feasibility and performance, this work uses deep reinforcement learning with a model predictive controller in a cooperative framework to handle unknown dynamics. The model-based controller takes on the primary role as both controllers are provided with predictive information about the other. This improves tracking performance and retention of inherent robustness of the model predictive controller. We evaluate this framework for off-road autonomous driving on unknown deformable terrains that represent sandy deformable soil, sandy and rocky soil, and cohesive clay-like deformable soil. Our findings demonstrate that our controller statistically outperforms standalone model-based and learning-based controllers by upto 29.2% and 10.2%. This framework generalized well over varied and previously unseen terrain characteristics to track longitudinal reference speeds with lower errors. Furthermore, this required significantly less training data compared to purely learning-based controller, while delivering better performance even when under-trained.