Feedback World Model Enables Precise Guidance of Diffusion Policy

📄 arXiv: 2605.15705v1 📥 PDF

作者: Tuo An, Jindou Jia, Gen Li, Jingliang Li, Chuhao Zhou, Pengfei Liu, Bofan Lyu, Jiaqi Bai, Xinying Guo, Geng Li, Jianfei Yang

分类: cs.RO, cs.AI

发布日期: 2026-05-15

备注: 21 pages, 9 figures


💡 一句话要点

提出反馈世界模型,通过闭环反馈提升扩散策略的机器人控制精度

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 世界模型 反馈控制 机器人学习 分布偏移 扩散策略

📋 核心要点

  1. 现有世界模型在机器人遇到训练分布之外的状态时,预测精度显著下降,限制了其在实际部署中的有效性。
  2. 论文提出反馈世界模型,通过在线更新反馈状态来迭代校正未来预测,利用实时观测补偿模型误差,无需额外训练。
  3. 实验表明,该方法显著提高了预测精度和策略性能,在分布偏移下,世界模型预测误差降低高达76.4%,OOD成功率提高30%。

📝 摘要(中文)

世界模型旨在通过预测动作的后果来改进机器人决策。然而,在实践中,一旦机器人遇到训练分布之外的状态,其预测通常变得不可靠,限制了部署效果。本文观察到执行本身提供了一种自然但未被充分利用的信号:在每个动作之后,机器人直接观察到真实的下一个状态,揭示了预测结果与实际结果之间的不匹配。基于此,本文提出反馈世界模型,这是一种新的范例,可在推理时闭合预测和观察之间的循环。该方法没有将世界模型视为静态的开环预测器,而是维护一个轻量级的反馈状态,该状态在线更新以迭代地校正未来的预测,从而使用实时观察来补偿模型误差,而无需额外的训练数据或参数更新。该过程可以解释为潜在空间观察器,并在温和条件下保证收敛。进一步引入了动作感知引导,通过强调动作可控的组件同时抑制不相关的变化,从而更好地将校正后的预测转化为控制。在LIBERO-Plus、Robomimic和真实世界操作任务上的实验表明,该方法显著提高了分布偏移下的预测精度和策略性能。特别地,它将世界模型预测误差降低了高达76.4%,并将超出分布(OOD)的成功率提高了30%。这些结果表明,在推理时结合实时反馈提供了一种简单而强大的替代静态世界建模的方法。

🔬 方法详解

问题定义:论文旨在解决机器人世界模型在分布偏移(out-of-distribution, OOD)情况下预测精度下降的问题。现有的世界模型通常作为静态的开环预测器,难以适应实际环境中出现的未见状态,导致预测结果与真实情况偏差较大,进而影响机器人控制策略的性能。

核心思路:论文的核心思路是在推理过程中引入实时反馈机制,利用机器人执行动作后获得的真实状态观测值来校正世界模型的预测。通过闭合预测和观察之间的循环,使模型能够动态地适应环境变化,提高预测精度和鲁棒性。

技术框架:整体框架包含一个世界模型和一个反馈模块。世界模型负责根据当前状态和动作预测下一个状态。反馈模块接收世界模型的预测结果和实际观测到的下一个状态,计算预测误差,并更新一个轻量级的反馈状态。更新后的反馈状态用于校正后续的预测,从而提高预测精度。此外,还引入了动作感知引导,以更好地将校正后的预测转化为控制信号。

关键创新:最重要的技术创新点在于将实时反馈融入世界模型的推理过程。与传统的静态世界模型不同,该方法能够动态地适应环境变化,并利用实际观测值来校正预测误差。这种闭环反馈机制使得模型能够更好地应对分布偏移,提高预测精度和鲁棒性。

关键设计:反馈状态是一个低维向量,用于存储预测误差的信息。反馈状态的更新采用卡尔曼滤波器的思想,根据预测误差和观测噪声来估计真实状态。动作感知引导通过注意力机制来区分动作可控和不可控的状态分量,从而更好地将校正后的预测转化为控制信号。损失函数包括预测损失和反馈损失,用于训练世界模型和反馈模块。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的反馈世界模型在LIBERO-Plus、Robomimic和真实世界操作任务上均取得了显著的性能提升。在分布偏移情况下,该方法将世界模型预测误差降低了高达76.4%,并将超出分布(OOD)的成功率提高了30%。这些结果表明,该方法能够有效地提高世界模型在复杂环境下的预测精度和鲁棒性。

🎯 应用场景

该研究成果可广泛应用于机器人自主导航、智能制造、自动驾驶等领域。通过提高世界模型在复杂环境下的预测精度,可以显著提升机器人的决策能力和适应性,使其能够更好地完成各种任务。该方法尤其适用于需要长时间自主运行且环境变化较大的场景,例如探索未知环境或执行复杂操作。

📄 摘要(原文)

World models aim to improve robotic decision making by predicting the consequences of actions. However, in practice, their predictions often become unreliable once the robot encounters states outside the training distribution, limiting their effectiveness at deployment. We observe that execution itself provides a natural but underutilized signal: after each action, the robot directly observes the true next state, revealing the mismatch between predicted and actual outcomes. Building on this insight, we propose feedback world model, a new paradigm that closes the loop between prediction and observation at inference time. Instead of treating the world model as a static open-loop predictor, our method maintains a lightweight feedback state that is updated online to iteratively correct future predictions, compensating for model errors using real-time observations without additional training data or parameter updates. We show that this process can be interpreted as a latent-space observer and admits convergence guarantees under mild conditions. We further introduce action-aware guidance to better translate corrected predictions into control by emphasizing action-controllable components while suppressing irrelevant variations. Experiments on LIBERO-Plus, Robomimic, and real-world manipulation tasks demonstrate that our method substantially improves both prediction accuracy and policy performance under distribution shift. In particular, it reduces world model prediction error by up to 76.4% and improves out-of-distribution (OOD) success rate by 30%. These results show that incorporating real-time feedback at inference time provides a simple yet powerful alternative to static world modeling.