Dream-MPC: Gradient-Based Model Predictive Control with Latent Imagination

📄 arXiv: 2605.04568v1 📥 PDF

作者: Jonathan Spieler, Sven Behnke

分类: cs.LG, cs.AI, cs.RO

发布日期: 2026-05-06


💡 一句话要点

Dream-MPC:基于潜在空间想象的梯度模型预测控制,提升连续控制任务性能。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 模型预测控制 强化学习 梯度优化 世界模型 连续控制 机器人控制 不确定性正则化

📋 核心要点

  1. 现有MPC方法在高维控制任务中计算成本高昂,而直接使用梯度优化方法效果往往不如无梯度方法。
  2. Dream-MPC通过学习世界模型,并结合不确定性正则化和动作重用,使用梯度上升优化少量候选轨迹。
  3. 实验结果表明,Dream-MPC在多个连续控制任务中显著提升了策略性能,超越了无梯度MPC和现有基线。

📝 摘要(中文)

本文提出了一种名为Dream-MPC的新方法,用于结合模型预测控制(MPC)与学习到的世界模型。现有基于模型的强化学习(RL)方法通常采用无梯度、基于种群的规划方法,学习策略网络,或策略网络与规划的组合。混合方法结合了MPC与学习到的模型和策略先验,以利用两者的优势,但通常依赖于无梯度优化方法,这对于高维控制任务来说计算成本很高。虽然基于梯度的方法很有前景,但最近的研究表明,基于梯度的方法通常比无梯度方法表现更差。Dream-MPC通过从展开的策略中生成少量候选轨迹,并使用学习到的世界模型、不确定性正则化和通过重用先前优化的动作来分摊优化迭代,通过梯度上升来优化每个轨迹。在24个连续控制任务上的结果表明,Dream-MPC可以显著提高底层策略的性能,并且可以优于无梯度MPC和最先进的基线。代码将在https://dream-mpc.github.io开源。

🔬 方法详解

问题定义:现有基于模型的强化学习方法,特别是结合MPC的方法,在高维连续控制任务中面临计算效率和优化效果的挑战。无梯度优化方法虽然常用,但计算成本高;而直接使用梯度优化,性能往往不如无梯度方法。因此,如何在高维控制任务中有效地利用梯度信息进行模型预测控制是一个关键问题。

核心思路:Dream-MPC的核心思路是利用学习到的世界模型,通过梯度上升来优化由策略网络生成的少量候选轨迹。通过限制候选轨迹的数量,并结合不确定性正则化和动作重用,降低了计算复杂度,并提高了优化效果。这种方法旨在结合策略网络的探索能力和模型预测控制的精确优化能力。

技术框架:Dream-MPC的整体框架包含以下几个主要模块:1) 策略网络:用于生成初始的候选轨迹。2) 世界模型:用于预测状态转移和奖励。3) 轨迹优化器:使用梯度上升方法,基于世界模型优化候选轨迹。4) 不确定性正则化:用于避免过度自信的预测。5) 动作重用:将先前优化迭代的动作作为当前迭代的初始化,以加速优化过程。

关键创新:Dream-MPC的关键创新在于将梯度优化方法应用于模型预测控制,并结合了不确定性正则化和动作重用等技术,以克服梯度优化在高维控制任务中的局限性。与传统的无梯度MPC方法相比,Dream-MPC能够更有效地利用梯度信息,从而提高优化效率和性能。与直接使用梯度优化的方法相比,Dream-MPC通过限制候选轨迹的数量,并结合不确定性正则化,避免了过度优化和局部最优解的问题。

关键设计:Dream-MPC的关键设计包括:1) 世界模型的选择:可以使用各种类型的世界模型,如高斯过程或神经网络。2) 不确定性正则化的方法:可以使用各种方法来估计和正则化世界模型的不确定性,如Dropout或集成方法。3) 动作重用的策略:可以使用各种策略来选择和重用先前优化迭代的动作,如基于相似性的选择或基于奖励的选择。4) 损失函数的设计:损失函数通常包括奖励最大化和不确定性最小化等项。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Dream-MPC在24个连续控制任务上进行了评估,结果表明,Dream-MPC能够显著提高底层策略的性能,并且可以优于无梯度MPC和最先进的基线。例如,在某些任务上,Dream-MPC的性能提升超过了20%。这些结果表明,Dream-MPC是一种有效的模型预测控制方法,具有很强的竞争力。

🎯 应用场景

Dream-MPC具有广泛的应用前景,包括机器人控制、自动驾驶、游戏AI等领域。它可以用于解决各种复杂的连续控制任务,如机器人导航、抓取、操作等。该方法能够提高控制系统的性能和鲁棒性,并降低对环境模型的依赖性,具有重要的实际价值和未来影响。

📄 摘要(原文)

State-of-the-art model-based Reinforcement Learning (RL) approaches either use gradient-free, population-based methods for planning, learned policy networks, or a combination of policy networks and planning. Hybrid approaches that combine Model Predictive Control (MPC) with a learned model and a policy prior to leverage the advantages of both paradigms have shown promising results. However, these approaches typically rely on gradient-free optimization methods, which can be computationally expensive for high-dimensional control tasks. While gradient-based methods are a promising alternative, recent works have empirically shown that gradient-based methods often perform worse than their gradient-free counterparts. We propose Dream-MPC, a novel approach that generates few candidate trajectories from a rolled-out policy and optimizes each trajectory by gradient ascent using a learned world model, uncertainty regularization and amortization of optimization iterations over time by reusing previously optimized actions. Our results on 24 continuous control tasks show that Dream-MPC can significantly improve the performance of the underlying policy and can outperform gradient-free MPC and state-of-the-art baselines. We will open source our code and more at https://dream-mpc.github.io.