ELVIS: Ensemble-Calibrated Latent Imagination for Long-Horizon Visual MPC

📄 arXiv: 2605.04709v1 📥 PDF

作者: Yurui Du, Pinhao Song, Yutong Hu, Renaud Detry

分类: cs.LG, cs.RO, eess.SY

发布日期: 2026-05-06


💡 一句话要点

ELVIS:用于长时程视觉MPC的集成校准潜在想象

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 模型预测控制 强化学习 长时程规划 视觉控制 不确定性建模

📋 核心要点

  1. 视觉控制中的长时程规划面临分支未来和多模态动作价值分布的挑战,同时视觉遮挡会放大模型误差,导致深度想象脆弱。
  2. ELVIS通过高斯混合MPPI保持多个假设,避免模式平均;利用不确定性感知的lambda-return稳定深度想象,平衡自举与前瞻。
  3. ELVIS在DeepMind Control Suite视觉任务上取得了SOTA性能,并成功零样本迁移到真实世界的喷砂任务,提升了表面质量。

📝 摘要(中文)

基于模型的强化学习在视觉控制中的一个核心挑战是可靠的长时程规划:通过学习到的潜在动态进行的长rollout会表现出分支的未来和多模态的动作-价值分布。此外,视觉遮挡放大的复合模型误差使得深度想象变得脆弱。我们提出了ELVIS,一种潜在模型预测控制器(MPC),旨在使长时程规划切实可行。ELVIS在Dreamer风格的循环状态空间模型(RSSM)中进行规划,并用高斯混合MPPI取代了标准的单峰模型预测路径积分(MPPI),该方法在长时程上保持多个连贯的假设,避免了分支rollout下的模式平均。同时,ELVIS通过共享的不确定性感知lambda-return来稳定深度想象:一个潜在评论家集成定义了一个上限置信度(UCB)分数,该分数控制一个时变lambda,自适应地权衡自举与前瞻,以限制规划期间的复合误差。相同的return既用于从想象的rollout中训练actor-critic先验,也用于对GMM-MPPI中的候选轨迹进行评分,从而将RL目标与规划器的长时程优化对齐。在十四个DeepMind Control Suite视觉任务中,ELVIS建立了与TD-MPC2和DreamerV3相比的最先进的性能。最后,ELVIS零样本迁移到具有严重遮挡的真实世界的喷砂任务,提高了表面质量指标,并展示了超出模拟的鲁棒性。

🔬 方法详解

问题定义:论文旨在解决基于模型的强化学习中,视觉控制任务中长时程规划的可靠性问题。现有方法在处理分支未来、多模态动作价值分布以及视觉遮挡带来的模型误差时表现不佳,导致规划结果不稳定和性能下降。

核心思路:ELVIS的核心思路是通过维护多个连贯的假设来应对分支未来,并利用不确定性感知的lambda-return来稳定深度想象。具体来说,使用高斯混合MPPI来处理多模态分布,并使用集成评论家来估计不确定性,从而自适应地调整bootstrapping和look-ahead的权重。

技术框架:ELVIS基于Dreamer风格的循环状态空间模型(RSSM),并在此基础上构建了高斯混合MPPI规划器和不确定性感知的lambda-return机制。整体流程包括:1) 使用RSSM进行状态预测;2) 使用GMM-MPPI生成候选轨迹;3) 使用集成评论家计算UCB分数,并根据该分数调整lambda值;4) 使用lambda-return对轨迹进行评分,并选择最优轨迹;5) 使用想象的rollout训练actor-critic先验。

关键创新:ELVIS的关键创新在于:1) 使用高斯混合MPPI来处理多模态动作价值分布,避免了模式平均;2) 引入了不确定性感知的lambda-return,能够自适应地平衡bootstrapping和look-ahead,从而稳定深度想象;3) 将RL目标与规划器的长时程优化对齐,提高了规划的可靠性。与现有方法的本质区别在于,ELVIS能够更好地处理不确定性和多模态性,从而实现更可靠的长时程规划。

关键设计:ELVIS的关键设计包括:1) GMM-MPPI中高斯混合成分的数量;2) 集成评论家的数量;3) UCB分数的计算方式;4) lambda值的更新策略;5) actor-critic网络的结构和训练方式。具体的损失函数包括用于训练RSSM的重构损失和KL散度损失,以及用于训练actor-critic网络的策略梯度损失和价值函数损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ELVIS在DeepMind Control Suite的14个视觉任务上取得了SOTA性能,超越了TD-MPC2和DreamerV3等基线方法。此外,ELVIS还成功地零样本迁移到真实世界的喷砂任务中,显著提高了表面质量指标,证明了其在实际应用中的鲁棒性和泛化能力。这些实验结果表明,ELVIS在长时程视觉控制方面具有显著优势。

🎯 应用场景

ELVIS具有广泛的应用前景,例如机器人操作、自动驾驶、游戏AI等领域。特别是在需要长时程规划和处理不确定性的任务中,ELVIS能够提供更可靠的控制策略。例如,在复杂环境下的机器人导航、需要精细操作的装配任务以及对抗性游戏环境中,ELVIS都有望发挥重要作用,提升系统的智能化水平和鲁棒性。

📄 摘要(原文)

A central challenge of visual control with model-based reinforcement learning (RL) is reliable long-horizon planning: long rollouts with learned latent dynamics exhibit branching futures and multi-modal action-value distributions. In addition, compounding model errors amplified by visual occlusions make deep imagination brittle. We present ELVIS, a latent model predictive controller (MPC) designed to make long-horizon planning practical. ELVIS plans in a Dreamer-style recurrent state space model (RSSM) and replaces standard unimodal model predictive path integral (MPPI) with a Gaussian-mixture MPPI that maintains multiple coherent hypotheses over long horizons, avoiding mode averaging under branching rollouts. In parallel, ELVIS stabilizes deep imagination with a shared uncertainty-aware lambda-return: an ensemble of latent critics defines an upper-confidence-bound (UCB) score that gates a time-varying lambda, adaptively trading off bootstrapping versus look-ahead to limit compounding error during planning. The same return is used both to train an actor-critic prior from imagined rollouts and to score candidate trajectories inside GMM-MPPI, aligning RL objectives with the planner's long-horizon optimization. On fourteen DeepMind Control Suite visual tasks, ELVIS establishes state-of-the-art performance compared with TD-MPC2 and DreamerV3. Finally, ELVIS transfers zero-shot to a real-world sand-spraying task with severe occlusions, improving surface-quality metrics and demonstrating robustness beyond simulation.