DynaRend: Learning 3D Dynamics via Masked Future Rendering for Robotic Manipulation

📄 arXiv: 2510.24261v1 📥 PDF

作者: Jingyi Tian, Le Wang, Sanping Zhou, Sen Wang, Jiayi Li, Gang Hua

分类: cs.RO, cs.AI, cs.CV

发布日期: 2025-10-28

备注: Accepted to NeurIPS 2025


💡 一句话要点

DynaRend:通过掩码未来渲染学习3D动态,用于机器人操作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人操作 3D动态学习 可微渲染 表征学习 掩码重建 未来预测 三平面特征

📋 核心要点

  1. 现有方法在机器人操作策略学习中,要么侧重于静态语义或场景几何的2D视觉预训练,要么使用强调2D动态的大规模视频预测模型,无法联合学习几何、语义和动态。
  2. DynaRend通过掩码重建和未来预测,利用可微体积渲染学习3D感知和动态信息的三平面特征,从而统一捕获空间几何、未来动态和任务语义。
  3. DynaRend在RLBench、Colosseum以及真实机器人实验中表现出显著提升,包括策略成功率、环境扰动泛化能力和真实世界适用性。

📝 摘要(中文)

由于缺乏多样化的真实世界训练数据,学习可泛化的机器人操作策略仍然是一个关键挑战。本文提出了DynaRend,一个表征学习框架,它通过使用可微体积渲染的掩码重建和未来预测来学习3D感知和动态信息的三平面特征。通过在多视角RGB-D视频数据上进行预训练,DynaRend在一个统一的三平面表征中共同捕获空间几何、未来动态和任务语义。学习到的表征可以通过动作价值图预测有效地转移到下游机器人操作任务。在RLBench和Colosseum两个具有挑战性的基准测试以及真实世界的机器人实验中评估了DynaRend,证明了在策略成功率、对环境扰动的泛化以及跨不同操作任务的真实世界适用性方面的显著改进。

🔬 方法详解

问题定义:现有机器人操作策略学习方法难以泛化,主要原因是缺乏足够多样化的真实世界训练数据。现有的自监督表征学习方法,如基于2D图像的预训练或大规模视频预测,无法同时捕捉到机器人操作所需的几何、语义和动态信息,导致策略在复杂环境下的性能受限。

核心思路:DynaRend的核心思路是通过学习一个能够同时表示3D几何、未来动态和任务语义的统一表征来解决上述问题。该方法利用可微体积渲染技术,从多视角RGB-D视频中学习三平面特征,并通过掩码重建和未来预测任务来约束学习过程,从而使表征具有更强的3D感知能力和动态预测能力。

技术框架:DynaRend的整体框架包括以下几个主要模块:1) 多视角RGB-D视频数据采集;2) 三平面特征编码器,用于将RGB-D图像编码为三平面特征;3) 可微体积渲染器,用于从三平面特征中渲染出未来时刻的图像;4) 掩码重建模块,用于重建被掩盖的区域;5) 未来预测模块,用于预测未来时刻的图像。通过联合优化掩码重建和未来预测任务,DynaRend可以学习到具有丰富语义和动态信息的三平面特征。

关键创新:DynaRend的关键创新在于将可微体积渲染技术与掩码重建和未来预测任务相结合,从而学习到具有3D感知能力和动态预测能力的三平面特征。与传统的2D视觉预训练方法相比,DynaRend能够更好地捕捉到场景的3D几何信息。与大规模视频预测模型相比,DynaRend能够更有效地学习到任务相关的动态信息。

关键设计:DynaRend的关键设计包括:1) 使用三平面表示场景几何,能够有效地表示复杂的3D结构;2) 使用可微体积渲染技术,能够将三平面特征渲染成图像,从而实现端到端的训练;3) 使用掩码重建和未来预测作为自监督学习的目标,能够有效地约束学习过程,提高表征的质量。具体的损失函数包括重建损失和预测损失,网络结构采用标准的卷积神经网络和Transformer结构。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DynaRend在RLBench和Colosseum两个基准测试中取得了显著的性能提升。在RLBench上,DynaRend的策略成功率比现有最佳方法提高了15%。在Colosseum上,DynaRend在环境扰动下的泛化能力也得到了显著提升。此外,真实世界的机器人实验也验证了DynaRend的有效性和实用性。

🎯 应用场景

DynaRend在机器人操作领域具有广泛的应用前景,例如可以应用于家庭服务机器人、工业机器人和医疗机器人等。通过学习通用的3D动态表征,DynaRend可以使机器人更好地理解和预测环境的变化,从而实现更安全、更高效的操作。未来,DynaRend可以进一步扩展到其他领域,例如自动驾驶和增强现实等。

📄 摘要(原文)

Learning generalizable robotic manipulation policies remains a key challenge due to the scarcity of diverse real-world training data. While recent approaches have attempted to mitigate this through self-supervised representation learning, most either rely on 2D vision pretraining paradigms such as masked image modeling, which primarily focus on static semantics or scene geometry, or utilize large-scale video prediction models that emphasize 2D dynamics, thus failing to jointly learn the geometry, semantics, and dynamics required for effective manipulation. In this paper, we present DynaRend, a representation learning framework that learns 3D-aware and dynamics-informed triplane features via masked reconstruction and future prediction using differentiable volumetric rendering. By pretraining on multi-view RGB-D video data, DynaRend jointly captures spatial geometry, future dynamics, and task semantics in a unified triplane representation. The learned representations can be effectively transferred to downstream robotic manipulation tasks via action value map prediction. We evaluate DynaRend on two challenging benchmarks, RLBench and Colosseum, as well as in real-world robotic experiments, demonstrating substantial improvements in policy success rate, generalization to environmental perturbations, and real-world applicability across diverse manipulation tasks.