Imperative MPC: An End-to-End Self-Supervised Learning with Differentiable MPC for UAV Attitude Control

📄 arXiv: 2504.13088v2 📥 PDF

作者: Haonan He, Yuheng Qiu, Junyi Geng

分类: cs.RO, eess.SY

发布日期: 2025-04-17 (更新: 2025-04-29)

备注: 14 pages, 3 figures, accepted by L4DC 2025


💡 一句话要点

提出基于可微MPC的端到端自监督学习框架,用于无人机姿态控制

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 无人机控制 模型预测控制 可微MPC 自监督学习 惯性里程计 端到端学习 双层优化

📋 核心要点

  1. 传统无人机控制方法依赖级联模块,参数调整繁琐且性能欠佳;纯数据驱动方法样本效率低,存在sim-to-real差距。
  2. 论文提出一种混合方法,结合学习的惯性里程计和可微模型预测控制,实现端到端的自监督学习。
  3. 实验表明,该方法在强风下有效,并能同时提升MPC参数学习和IMU预测的性能。

📝 摘要(中文)

本文提出了一种自监督学习框架,该框架结合了基于学习的惯性里程计(IO)模块和可微模型预测控制(d-MPC),用于无人机(UAV)姿态控制。IO模块对原始IMU测量数据进行去噪,并预测无人机的姿态,然后通过MPC进行优化,以获得控制动作。该方法采用双层优化(BLO)设置,其中内部MPC优化控制动作,上层最小化真实世界性能与预测性能之间的差异。因此,该框架是端到端的,并且可以通过自监督的方式进行训练。这种方法结合了基于学习的感知和可解释的基于模型的控制的优点。结果表明,即使在强风下,该方法也是有效的,并且可以同时提高MPC参数学习和IMU预测性能。

🔬 方法详解

问题定义:无人机姿态控制在复杂环境(如强风)下面临挑战,传统控制方法参数调整困难,且难以适应非线性动力学。纯数据驱动方法需要大量数据,泛化能力受限,且难以解释。因此,需要一种能够结合模型先验和数据驱动优势的控制方法。

核心思路:论文的核心思路是将基于学习的惯性里程计(IO)与可微模型预测控制(d-MPC)相结合,构建一个端到端的自监督学习框架。IO负责从IMU数据中提取准确的姿态信息,d-MPC则利用这些信息进行优化控制。通过可微的MPC,可以将控制性能的梯度反向传播到IO模块,从而实现联合优化。

技术框架:该框架包含两个主要模块:惯性里程计(IO)和可微模型预测控制(d-MPC)。IO模块接收原始IMU数据,输出无人机的姿态估计。d-MPC模块接收IO的姿态估计,并计算控制动作。整个框架采用双层优化(BLO)结构,内层优化MPC的控制动作,外层优化IO和MPC的参数,以最小化真实世界性能与预测性能之间的差异。

关键创新:该方法最重要的创新点在于将学习的感知模块(IO)与可微模型预测控制(d-MPC)集成到一个端到端的自监督学习框架中。通过可微的MPC,实现了控制性能的梯度反向传播,从而可以联合优化感知和控制模块。这种方法结合了数据驱动和模型驱动的优点,提高了控制系统的鲁棒性和泛化能力。

关键设计:IO模块的网络结构未知,但其目标是准确预测无人机姿态。d-MPC模块的关键在于其可微性,以便进行梯度反向传播。损失函数的设计至关重要,需要能够反映真实世界性能与预测性能之间的差异。双层优化算法的选择也影响着训练的效率和稳定性。具体的参数设置和网络结构在论文中可能未详细描述,需要进一步查阅相关文献。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文实验结果表明,该方法在强风环境下依然有效,验证了其鲁棒性。该方法能够同时提升MPC参数学习和IMU预测的性能,表明了端到端联合优化的优势。具体的性能数据和对比基线未知,需要在论文中查找。

🎯 应用场景

该研究成果可应用于各种无人机控制场景,尤其是在复杂环境(如强风、障碍物)下的自主飞行。该方法还可以推广到其他机器人控制领域,例如自动驾驶、机器人操作等,提高机器人的自主性和适应性。此外,该框架的自监督学习特性降低了对大量标注数据的依赖,具有重要的实际应用价值。

📄 摘要(原文)

Modeling and control of nonlinear dynamics are critical in robotics, especially in scenarios with unpredictable external influences and complex dynamics. Traditional cascaded modular control pipelines often yield suboptimal performance due to conservative assumptions and tedious parameter tuning. Pure data-driven approaches promise robust performance but suffer from low sample efficiency, sim-to-real gaps, and reliance on extensive datasets. Hybrid methods combining learning-based and traditional model-based control in an end-to-end manner offer a promising alternative. This work presents a self-supervised learning framework combining learning-based inertial odometry (IO) module and differentiable model predictive control (d-MPC) for Unmanned Aerial Vehicle (UAV) attitude control. The IO denoises raw IMU measurements and predicts UAV attitudes, which are then optimized by MPC for control actions in a bi-level optimization (BLO) setup, where the inner MPC optimizes control actions and the upper level minimizes discrepancy between real-world and predicted performance. The framework is thus end-to-end and can be trained in a self-supervised manner. This approach combines the strength of learning-based perception with the interpretable model-based control. Results show the effectiveness even under strong wind. It can simultaneously enhance both the MPC parameter learning and IMU prediction performance.