RoboStereo: Dual-Tower 4D Embodied World Models for Unified Policy Optimization

📄 arXiv: 2603.12639v1 📥 PDF

作者: Ruicheng Zhang, Guangyu Chen, Zunnan Xu, Zihao Liu, Zhizhou Zhong, Mingyang Zhang, Jun Zhou, Xiu Li

分类: cs.CV

发布日期: 2026-03-13


💡 一句话要点

RoboStereo:双塔4D具身世界模型,用于统一策略优化,提升机器人操作性能。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 世界模型 策略优化 机器人操作 跨模态学习

📋 核心要点

  1. 现有具身世界模型(EWMs)存在几何幻觉,缺乏统一的优化框架,限制了策略改进。
  2. RoboStereo通过对称双塔结构和跨模态增强,保证时空几何一致性,缓解物理幻觉。
  3. 提出的统一框架包含TTPA、IEPL和OEPL,实现预执行验证、模仿学习和自主探索,提升策略性能。

📝 摘要(中文)

本文提出RoboStereo,一种对称双塔4D世界模型,它采用双向跨模态增强来确保时空几何一致性并减轻物理幻觉。基于此高保真4D模拟器,本文提出了第一个基于世界模型的统一策略优化框架,包含:(1)用于预执行验证的测试时策略增强(TTPA),(2)利用视觉感知奖励从专家演示中学习的模仿-进化策略学习(IEPL),以及(3)支持自主技能发现和自我纠正的开放探索策略学习(OEPL)。综合实验表明,RoboStereo实现了最先进的生成质量,并且统一框架在精细操作任务上实现了超过97%的平均相对改进。

🔬 方法详解

问题定义:现有具身智能研究受限于真实世界交互的高成本和安全风险。虽然具身世界模型(EWMs)通过想象展开提供了一种解决方案,但它们通常遭受几何幻觉和缺乏统一优化框架的困扰,难以实现实际的策略改进。因此,需要一种能够生成高保真、时空一致的模拟环境,并支持多种策略学习方法的框架。

核心思路:RoboStereo的核心思路是构建一个对称的双塔4D世界模型,利用双向跨模态增强来提升时空几何一致性,从而减少物理幻觉。通过构建更真实的模拟环境,可以更有效地训练和优化机器人策略。此外,通过统一的策略优化框架,可以结合模仿学习、进化学习和开放探索等多种方法,从而更全面地提升策略性能。

技术框架:RoboStereo的整体框架包含两个主要部分:双塔4D世界模型和统一策略优化框架。双塔4D世界模型由两个对称的塔组成,每个塔处理不同的模态数据(例如,视觉和深度)。通过双向跨模态增强,两个塔可以互相学习,从而提升时空几何一致性。统一策略优化框架包含三个模块:测试时策略增强(TTPA)、模仿-进化策略学习(IEPL)和开放探索策略学习(OEPL)。TTPA用于在执行前验证策略的安全性;IEPL利用专家演示数据进行模仿学习,并结合进化算法进行优化;OEPL则允许机器人自主探索环境,发现新的技能并进行自我纠正。

关键创新:RoboStereo的关键创新在于其对称双塔4D世界模型和统一策略优化框架。双塔结构和跨模态增强显著提升了世界模型的生成质量和时空一致性,减少了物理幻觉。统一策略优化框架则将多种策略学习方法整合在一起,实现了更全面的策略优化。与现有方法相比,RoboStereo能够生成更高保真的模拟环境,并支持更灵活的策略学习。

关键设计:RoboStereo的关键设计包括:(1) 对称双塔结构,每个塔包含编码器和解码器,用于处理不同模态的数据。(2) 双向跨模态增强模块,用于在两个塔之间传递信息,提升时空几何一致性。(3) 测试时策略增强(TTPA)模块,通过在模拟环境中进行多次模拟,评估策略的安全性。(4) 模仿-进化策略学习(IEPL)模块,利用视觉感知奖励来指导策略学习。(5) 开放探索策略学习(OEPL)模块,使用强化学习算法鼓励机器人自主探索环境。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RoboStereo在生成质量上达到了最先进水平。在精细操作任务上,使用RoboStereo的统一框架实现了超过97%的平均相对改进。这些结果验证了RoboStereo的有效性和优越性。

🎯 应用场景

RoboStereo可应用于各种机器人操作任务,例如装配、抓取、导航等。该研究成果有助于降低机器人开发的成本和风险,加速具身智能的落地。未来,RoboStereo有望应用于自动驾驶、智能制造、医疗机器人等领域,实现更智能、更安全的机器人系统。

📄 摘要(原文)

Scalable Embodied AI faces fundamental constraints due to prohibitive costs and safety risks of real-world interaction. While Embodied World Models (EWMs) offer promise through imagined rollouts, existing approaches suffer from geometric hallucinations and lack unified optimization frameworks for practical policy improvement. We introduce RoboStereo, a symmetric dual-tower 4D world model that employs bidirectional cross-modal enhancement to ensure spatiotemporal geometric consistency and alleviate physics hallucinations. Building upon this high-fidelity 4D simulator, we present the first unified framework for world-model-based policy optimization: (1) Test-Time Policy Augmentation (TTPA) for pre-execution verification, (2) Imitative-Evolutionary Policy Learning (IEPL) leveraging visual perceptual rewards to learn from expert demonstrations, and (3) Open-Exploration Policy Learning (OEPL) enabling autonomous skill discovery and self-correction. Comprehensive experiments demonstrate RoboStereo achieves state-of-the-art generation quality, with our unified framework delivering >97% average relative improvement on fine-grained manipulation tasks.