R3D: Revisiting 3D Policy Learning

📄 arXiv: 2604.15281v1 📥 PDF

作者: Zhengdong Hong, Shenrui Wu, Haozhe Cui, Boyi Zhao, Ran Ji, Yiyang He, Hangxing Zhang, Zundong Ke, Jun Wang, Guofeng Zhang, Jiayuan Gu

分类: cs.CV, cs.RO

发布日期: 2026-04-16


💡 一句话要点

R3D:通过引入3D数据增强和优化网络结构,提升3D策略学习的稳定性和泛化性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)

关键词: 3D策略学习 模仿学习 Transformer 扩散模型 数据增强 机器人操作 深度学习

📋 核心要点

  1. 现有3D策略学习方法存在训练不稳定和过拟合问题,限制了3D感知模型的应用。
  2. 提出R3D架构,结合Transformer编码器和扩散解码器,并引入3D数据增强,提升模型稳定性。
  3. 实验表明,R3D在操作任务上显著优于现有3D基线,为3D模仿学习提供了新基础。

📝 摘要(中文)

3D策略学习有望实现卓越的泛化能力和跨形态迁移,但其进展受到训练不稳定和严重过拟合的阻碍,导致无法采用强大的3D感知模型。本文系统地诊断了这些问题,确定了忽略3D数据增强和批量归一化的不利影响是主要原因。我们提出了一种新的架构,将可扩展的基于Transformer的3D编码器与扩散解码器相结合,专门为大规模的稳定性而设计,并旨在利用大规模预训练。我们的方法在具有挑战性的操作基准测试中显著优于最先进的3D基线,为可扩展的3D模仿学习奠定了新的、稳健的基础。

🔬 方法详解

问题定义:现有3D策略学习方法在训练过程中面临着严重的训练不稳定性和过拟合问题,这阻碍了其在复杂操作任务中的应用。现有的方法难以充分利用3D感知模型的强大能力,导致泛化性能受限。

核心思路:本文的核心思路是通过引入3D数据增强来提高模型的泛化能力,并优化网络结构以增强训练的稳定性。具体来说,通过使用Transformer编码器提取3D特征,并使用扩散解码器生成策略,同时避免使用Batch Normalization。

技术框架:R3D的整体架构包含一个基于Transformer的3D编码器和一个扩散解码器。首先,3D数据经过数据增强处理,然后输入到Transformer编码器中提取特征。编码器的输出作为扩散解码器的输入,解码器生成控制策略。整个框架采用端到端的方式进行训练。

关键创新:该论文的关键创新在于:1) 明确指出了3D数据增强的重要性,并将其应用于3D策略学习;2) 提出了基于Transformer编码器和扩散解码器的网络结构,该结构更适合于大规模预训练,并且避免了Batch Normalization带来的问题。

关键设计:在数据增强方面,采用了随机旋转、缩放和平移等操作。Transformer编码器使用了多层自注意力机制,扩散解码器则通过逐步去噪的方式生成策略。损失函数包括模仿学习损失和正则化项。避免使用Batch Normalization,转而使用Layer Normalization或其他归一化方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,R3D在多个具有挑战性的操作基准测试中显著优于现有的3D策略学习方法。具体而言,R3D在成功率和效率方面均取得了显著提升,证明了其在复杂操作任务中的优越性能。该方法为可扩展的3D模仿学习奠定了新的基础。

🎯 应用场景

该研究成果可应用于机器人操作、自动驾驶、虚拟现实等领域。通过提升3D策略学习的性能,可以使机器人更好地理解和操作三维环境,从而实现更智能、更自主的机器人系统。该研究对于推动机器人技术的发展具有重要意义。

📄 摘要(原文)

3D policy learning promises superior generalization and cross-embodiment transfer, but progress has been hindered by training instabilities and severe overfitting, precluding the adoption of powerful 3D perception models. In this work, we systematically diagnose these failures, identifying the omission of 3D data augmentation and the adverse effects of Batch Normalization as primary causes. We propose a new architecture coupling a scalable transformer-based 3D encoder with a diffusion decoder, engineered specifically for stability at scale and designed to leverage large-scale pre-training. Our approach significantly outperforms state-of-the-art 3D baselines on challenging manipulation benchmarks, establishing a new and robust foundation for scalable 3D imitation learning. Project Page: https://r3d-policy.github.io/