ZipMPC: Compressed Context-Dependent MPC Cost via Imitation Learning
作者: Rahel Rickenbach, Alan A. Lahoud, Erik Schaffernicht, Melanie N. Zeilinger, Johannes A. Stork
分类: cs.RO, eess.SY
发布日期: 2025-07-17
💡 一句话要点
ZipMPC:通过模仿学习压缩上下文相关的MPC成本,加速实时控制
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 模型预测控制 模仿学习 神经网络 自主赛车 实时控制
📋 核心要点
- 传统MPC计算量大,难以在实时性要求高的场景中使用,且短预测时程难以反映长期目标。
- ZipMPC通过模仿学习,训练一个压缩的、上下文相关的成本函数,用于短时程MPC,以逼近长时程MPC的性能。
- 实验表明,ZipMPC在自主赛车任务中,能以接近长时程MPC的性能完成任务,且泛化性更强。
📝 摘要(中文)
模型预测控制(MPC)的计算负担限制了其在机器人等实时系统上的应用,通常需要使用较短的预测范围。这不仅影响控制性能,还增加了设计反映所需长期目标的MPC成本函数的难度。本文提出了ZipMPC,一种通过学习压缩的、上下文相关的成本函数来模仿长时程MPC行为的方法,用于短时程MPC。与近似显式MPC和自动成本参数调整等替代方法相比,它在以下方面提高了性能:i) 优化长期目标;ii) 保持与短时程MPC相当的计算成本;iii) 确保约束满足;iv) 将控制行为推广到训练期间未观察到的环境。为此,ZipMPC利用可微分MPC与神经网络的概念,通过MPC优化传播模仿损失的梯度。我们在自主赛车的仿真和真实实验中验证了我们提出的方法。ZipMPC始终比选定的基线更快地完成圈速,实现了接近长时程MPC基线的圈速。在短时程MPC基线无法完成一圈的具有挑战性的场景中,ZipMPC能够完成。特别地,这些性能提升也在训练期间未见过的赛道上观察到。
🔬 方法详解
问题定义:传统模型预测控制(MPC)在实时性要求高的场景,如机器人控制中,面临计算量大的挑战。为了降低计算量,通常采用短预测时程,但这会牺牲控制性能,难以优化长期目标,并且对成本函数的设计提出了更高的要求。现有方法,如近似显式MPC和自动成本参数调整,在优化长期目标、计算成本、约束满足和泛化能力方面存在不足。
核心思路:ZipMPC的核心思想是通过模仿学习,让一个短时程MPC能够学习到长时程MPC的行为。具体来说,ZipMPC学习一个压缩的、上下文相关的成本函数,这个成本函数能够反映长时程MPC的长期目标。通过这种方式,ZipMPC可以在保持较低计算成本的同时,获得接近长时程MPC的控制性能。
技术框架:ZipMPC的整体框架包含以下几个主要部分:1) 长时程MPC:作为专家策略,生成训练数据;2) 短时程MPC:使用学习到的成本函数进行控制;3) 神经网络:用于学习压缩的、上下文相关的成本函数;4) 可微分MPC:用于将模仿损失的梯度反向传播到神经网络。训练过程是,首先使用长时程MPC生成轨迹数据,然后使用这些数据训练神经网络,使其输出的成本函数能够让短时程MPC模仿长时程MPC的行为。
关键创新:ZipMPC的关键创新在于使用模仿学习来学习MPC的成本函数。与传统的成本函数设计方法相比,ZipMPC能够自动地学习到反映长期目标的成本函数,而无需人工进行繁琐的参数调整。此外,ZipMPC还利用了可微分MPC,使得可以通过梯度下降来优化神经网络,从而实现端到端的训练。
关键设计:ZipMPC的关键设计包括:1) 神经网络结构:用于学习成本函数的神经网络需要能够捕捉到环境的上下文信息,因此可以使用卷积神经网络或循环神经网络等结构。2) 损失函数:损失函数用于衡量短时程MPC与长时程MPC行为的差异,可以使用均方误差或交叉熵等损失函数。3) 可微分MPC:为了能够进行梯度反向传播,需要使用可微分的MPC求解器。4) 训练数据:训练数据需要包含足够多的环境信息和控制策略,以保证学习到的成本函数具有良好的泛化能力。
🖼️ 关键图片
📊 实验亮点
ZipMPC在自主赛车任务中表现出色。在仿真和真实实验中,ZipMPC的圈速接近长时程MPC基线,并且优于短时程MPC和其他基线方法。在一些具有挑战性的场景中,短时程MPC基线无法完成一圈,而ZipMPC能够成功完成。更重要的是,ZipMPC在训练期间未见过的赛道上也能表现出良好的性能,证明了其具有良好的泛化能力。
🎯 应用场景
ZipMPC具有广泛的应用前景,尤其是在需要实时控制且计算资源有限的场景中。例如,它可以应用于机器人导航、自动驾驶、无人机控制等领域。通过学习压缩的成本函数,ZipMPC能够显著降低MPC的计算量,使其能够在嵌入式系统等资源受限的平台上运行。此外,ZipMPC还具有良好的泛化能力,能够在未知的环境中进行控制,这使得它在动态变化的场景中具有很大的优势。
📄 摘要(原文)
The computational burden of model predictive control (MPC) limits its application on real-time systems, such as robots, and often requires the use of short prediction horizons. This not only affects the control performance, but also increases the difficulty of designing MPC cost functions that reflect the desired long-term objective. This paper proposes ZipMPC, a method that imitates a long-horizon MPC behaviour by learning a compressed and context-dependent cost function for a short-horizon MPC. It improves performance over alternative methods, such as approximate explicit MPC and automatic cost parameter tuning, in particular in terms of i) optimizing the long term objective; ii) maintaining computational costs comparable to a short-horizon MPC; iii) ensuring constraint satisfaction; and iv) generalizing control behaviour to environments not observed during training. For this purpose, ZipMPC leverages the concept of differentiable MPC with neural networks to propagate gradients of the imitation loss through the MPC optimization. We validate our proposed method in simulation and real-world experiments on autonomous racing. ZipMPC consistently completes laps faster than selected baselines, achieving lap times close to the long-horizon MPC baseline. In challenging scenarios where the short-horizon MPC baseline fails to complete a lap, ZipMPC is able to do so. In particular, these performance gains are also observed on tracks unseen during training.