Bridging the Sim-to-real Gap: A Control Framework for Imitation Learning of Model Predictive Control

📄 arXiv: 2503.19228v3 📥 PDF

作者: Seungtaek Kim, Jonghyup Lee, Kyoungseok Han, Seibum B. Choi

分类: eess.SY

发布日期: 2025-03-25 (更新: 2025-07-03)


💡 一句话要点

提出基于鲁棒Tube MPC的模仿学习控制框架,提升Sim-to-Real迁移效率

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 模仿学习 模型预测控制 Sim-to-Real 鲁棒控制 深度神经网络

📋 核心要点

  1. 现有模仿学习MPC方法依赖领域随机化解决Sim-to-Real问题,但效率低且控制策略保守。
  2. 该论文提出一种基于鲁棒Tube MPC的控制框架,确保DNN在源域环境中运行,提升数据效率。
  3. 引入参数调节器解决DNN对模型参数变化的适应性问题,增强系统在变化条件下的鲁棒性。

📝 摘要(中文)

为了解决模型预测控制(MPC)的计算挑战,最近的研究探索使用模仿学习将MPC近似为计算高效的深度神经网络(DNN)。然而,这引入了学习控制中常见的模拟到现实(sim-to-real)差距问题。领域随机化(DR)已被广泛用于通过在源域中引入扰动来缓解这一差距。然而,DR不可避免地导致数据收集效率低下和过于保守的控制策略。本研究提出了一种新的控制框架,从控制角度解决了这个问题,灵感来源于鲁棒Tube MPC。该框架确保DNN在与源域相同的环境中运行,从而以极高的数据收集效率处理sim-to-real差距。此外,引入了一个参数调节器来解决DNN无法适应模型参数变化的问题,使系统能够在不断变化的条件下更稳健地满足MPC约束。所提出的框架通过两个案例研究进行了验证:倒立摆控制和车辆避撞控制,详细分析了所提出框架的原理,并展示了其在车辆控制案例中的应用。

🔬 方法详解

问题定义:论文旨在解决模仿学习MPC中,由于Sim-to-Real差距导致控制性能下降的问题。现有方法如领域随机化(DR)虽然可以缓解这一问题,但存在数据收集效率低、控制策略过于保守的缺点。此外,DNN难以适应模型参数的变化,进一步影响了控制的鲁棒性。

核心思路:论文的核心思路是借鉴鲁棒Tube MPC的思想,设计一个控制框架,使得DNN控制器始终在与仿真环境相似的“Tube”内运行,从而减小Sim-to-Real差距。同时,引入参数调节器,补偿DNN对模型参数变化的敏感性,提高控制系统的鲁棒性。

技术框架:整体框架包含以下几个主要模块:1) 模仿学习模块:使用DNN模仿MPC的控制策略。2) Tube MPC模块:基于鲁棒Tube MPC,生成安全约束,确保系统状态维持在安全区域内。3) 环境约束模块:将实际环境约束转化为对DNN控制器的约束,保证其在与仿真环境相似的范围内运行。4) 参数调节器:根据实际模型参数与仿真模型参数的差异,对DNN的输出进行调整,补偿模型不确定性。

关键创新:该论文的关键创新在于将鲁棒Tube MPC的思想引入到模仿学习框架中,通过约束DNN的运行环境,有效地减小了Sim-to-Real差距,提高了数据利用率。参数调节器的引入,进一步增强了系统对模型参数变化的鲁棒性。与传统的DR方法相比,该方法不需要大量的随机化数据,提高了训练效率。

关键设计:Tube MPC模块的设计需要仔细选择Tube的大小,以保证安全性和控制性能。参数调节器的设计需要根据具体的模型参数不确定性进行调整,可以使用自适应控制或鲁棒控制的方法。损失函数的设计需要考虑控制精度、安全性以及对模型参数变化的鲁棒性。网络结构的选择需要根据控制任务的复杂程度进行调整,可以使用卷积神经网络或循环神经网络等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过倒立摆控制和车辆避撞控制两个案例验证了所提出框架的有效性。实验结果表明,该框架能够以较高的数据效率实现Sim-to-Real迁移,并且在模型参数变化的情况下,仍能保持较好的控制性能。与传统的领域随机化方法相比,该方法能够显著提高数据利用率和控制鲁棒性。

🎯 应用场景

该研究成果可应用于各种需要高精度和鲁棒性的控制场景,例如自动驾驶、机器人控制、无人机控制等。通过模仿学习和鲁棒控制相结合,可以降低控制系统的开发成本,提高系统的适应性和可靠性。尤其在模型参数存在不确定性的情况下,该方法具有重要的应用价值。

📄 摘要(原文)

To address the computational challenges of Model Predictive Control (MPC), recent research has studied using imitation learning to approximate the MPC to a computationally efficient Deep Neural Network (DNN). However, this introduces a common issue in learning-based control, the simulation-to-reality (sim-to-real) gap, and Domain Randomization (DR) has been widely used to mitigate this gap by introducing perturbations in the source domain. However, DR inevitably leads to low data collection efficiency and an overly conservative control strategy. This study proposes a new control framework that addresses this issue from a control perspective inspired by Robust Tube MPC. The framework ensures the DNN operates in the same environment as the source domain, handling the sim-to-real gap with great data collection efficiency. Moreover, a parameter governor is introduced to address the DNN's inability to adapt to variations in model parameters, enabling the system to satisfy MPC constraints more robustly under changing conditions. The proposed framework was validated through two case studies: cart-pole control and vehicle collision avoidance control, which analyzed the principles of the proposed framework in detail and demonstrated its application to a vehicle control case.