Slot-MPC: Goal-Conditioned Model Predictive Control with Object-Centric Representations

📄 arXiv: 2605.14937v1 📥 PDF

作者: Jonathan Spieler, Angel Villar-Corrales, Sven Behnke

分类: cs.LG, cs.AI, cs.RO

发布日期: 2026-05-14


💡 一句话要点

Slot-MPC:基于对象中心表示和模型预测控制的目标条件机器人操作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 对象中心表示 模型预测控制 机器人操作 世界模型 目标条件规划

📋 核心要点

  1. 现有对象中心世界模型和强化学习方法通常学习固定的反应策略,泛化能力有限,难以适应新情况。
  2. Slot-MPC提出了一种对象中心世界建模框架,通过模型预测控制进行规划,利用视觉编码器学习对象表示,并学习动作条件的对象动态模型。
  3. 实验表明,Slot-MPC在机器人操作任务中提高了任务性能和规划效率,尤其是在有限数据情况下,基于梯度的MPC优于无梯度MPC。

📝 摘要(中文)

预测世界模型使智能体能够对场景动态进行建模,并推理其行为的后果。受人类感知的启发,对象中心世界模型使用对象级别的表示来捕获场景动态,这些表示可用于下游应用,例如动作规划。然而,大多数对象中心世界模型和强化学习(RL)方法学习的是在推理时固定的反应策略,限制了对新情况的泛化。我们提出了Slot-MPC,一个对象中心世界建模框架,它可以通过模型预测控制(MPC)进行规划。Slot-MPC利用视觉编码器来学习基于槽的表示,这些表示编码场景中的各个对象,并使用这些结构化表示来学习动作条件的对象中心动态模型。在推理时,学习到的动态模型可以通过MPC进行动作规划,使智能体能够适应以前未见过的情况。由于学习到的世界模型是可微分的,我们可以使用基于梯度的MPC直接优化动作,这比依赖于无梯度、基于采样的MPC方法在计算上更有效。在模拟机器人操作任务上的实验表明,与非对象中心世界模型基线相比,Slot-MPC提高了任务性能和规划效率。在具有有限状态-动作覆盖的离线设置中,我们发现基于梯度的MPC比无梯度、基于采样的MPC表现更好。我们的结果表明,显式结构化的对象中心表示为可控和可泛化的决策提供了强大的归纳偏置。

🔬 方法详解

问题定义:论文旨在解决机器人操作任务中,智能体如何更好地理解和利用环境中的对象信息,从而进行更有效的动作规划和决策的问题。现有方法,特别是基于强化学习的方法,通常学习的是反应式策略,难以泛化到新的场景和任务中。此外,传统的模型预测控制方法在处理高维状态空间时,计算复杂度较高。

核心思路:论文的核心思路是利用对象中心表示来建模环境,并结合模型预测控制(MPC)进行动作规划。通过将环境分解为独立的、可交互的对象,可以降低状态空间的维度,并提高模型的泛化能力。同时,利用可微分的世界模型,可以使用基于梯度的MPC方法,提高规划效率。

技术框架:Slot-MPC框架主要包含以下几个模块:1) 视觉编码器:用于从原始图像中提取对象中心表示(slot-based representations)。2) 对象中心动态模型:用于预测在给定动作下,各个对象的状态变化。3) 模型预测控制(MPC):利用动态模型,通过优化动作序列,实现目标条件下的任务规划。整个框架是端到端可训练的。

关键创新:论文的关键创新在于将对象中心表示与模型预测控制相结合,提出了一种新的机器人操作框架。与传统的基于像素的MPC方法相比,Slot-MPC能够更好地利用环境中的结构化信息,提高规划效率和泛化能力。此外,论文还探索了基于梯度的MPC方法在对象中心世界模型中的应用,进一步提高了规划效率。

关键设计:视觉编码器采用基于Slot Attention的结构,用于提取对象表示。动态模型采用神经网络进行建模,输入为当前对象状态和动作,输出为下一个对象状态的预测。损失函数包括状态预测误差和动作规划的目标函数。基于梯度的MPC使用Adam优化器进行优化,迭代次数和步长等参数需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Slot-MPC在模拟机器人操作任务中,相比于非对象中心世界模型基线,显著提高了任务性能和规划效率。特别是在有限状态-动作覆盖的离线设置中,基于梯度的MPC方法优于无梯度、基于采样的MPC方法,验证了对象中心表示和梯度MPC的有效性。具体性能提升数据需要在论文中查找。

🎯 应用场景

Slot-MPC具有广泛的应用前景,可以应用于各种机器人操作任务,例如物体抓取、装配、导航等。该方法还可以扩展到其他领域,例如自动驾驶、游戏AI等,通过对环境进行结构化建模,提高智能体的决策能力和泛化能力。未来的研究可以探索如何将Slot-MPC与强化学习相结合,实现更高效的自主学习。

📄 摘要(原文)

Predictive world models enable agents to model scene dynamics and reason about the consequences of their actions. Inspired by human perception, object-centric world models capture scene dynamics using object-level representations, which can be used for downstream applications such as action planning. However, most object-centric world models and reinforcement learning (RL) approaches learn reactive policies that are fixed at inference time, limiting generalization to novel situations. We propose Slot-MPC, an object-centric world modeling framework that enables planning through Model Predictive Control (MPC). Slot-MPC leverages vision encoders to learn slot-based representations, which encode individual objects in the scene, and uses these structured representations to learn an action-conditioned object-centric dynamics model. At inference time, the learned dynamics model enables action planning via MPC, allowing agents to adapt to previously unseen situations. Since the learned world model is differentiable, we can use gradient-based MPC to directly optimize actions, which is computationally more efficient than relying on gradient-free, sampling-based MPC methods. Experiments on simulated robotic manipulation tasks show that Slot-MPC improves both task performance and planning efficiency compared to non-object-centric world model baselines. In the considered offline setting with limited state-action coverage, we find that gradient-based MPC performs better than gradient-free, sampling-based MPC. Our results demonstrate that explicitly structured, object-centric representations provide a strong inductive bias for controllable and generalizable decision-making. Code and additional results are available at https://slot-mpc.github.io.