SE(3)-Equivariant Diffusion Policy in Spherical Fourier Space
作者: Xupeng Zhu, Fan Wang, Robin Walters, Jane Shi
分类: cs.RO
发布日期: 2025-07-02
备注: Accepted at ICML 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出SE(3)等变扩散策略SDP,提升机器人操作任务在3D场景中的泛化性
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)
关键词: 扩散策略 SE(3)等变性 球谐傅里叶空间 机器人操作 泛化能力
📋 核心要点
- 现有扩散策略在3D场景中泛化性差,难以适应物体新排列,限制了其在真实机器人操作中的应用。
- SDP通过在球谐傅里叶空间中嵌入状态、动作和去噪过程,实现了SE(3)等变性,从而适应场景的3D变换。
- 实验表明,SDP在模拟和真实机器人任务中均优于现有基线,显著提升了在不同3D场景下的泛化能力。
📝 摘要(中文)
扩散策略在学习人类演示的闭环操作策略方面非常有效,但对于3D空间中物体的新排列泛化能力较差,影响了实际性能。为了解决这个问题,我们提出了球谐扩散策略(SDP),这是一种SE(3)等变扩散策略,可以根据场景的3D变换来调整轨迹。这种等变性是通过将状态、动作和去噪过程嵌入到球谐傅里叶空间来实现的。此外,我们采用新颖的球谐FiLM层,以等变的方式将动作去噪过程调节到场景嵌入上。最后,我们提出了一个球谐去噪时间U-net,它以计算效率实现时空等变性。最终,SDP是端到端SE(3)等变的,从而可以在变换的3D场景中实现强大的泛化。SDP在20个模拟任务和5个物理机器人任务(包括单臂和双手操作)中,相对于强大的基线,表现出显著的性能提升。
🔬 方法详解
问题定义:现有基于扩散模型的机器人操作策略,在面对3D场景中物体位置、姿态发生变化时,泛化能力较弱。这是因为这些策略通常不具备SE(3)等变性,无法有效利用场景的几何结构信息,导致模型难以适应新的场景布局。
核心思路:论文的核心思路是将扩散模型中的状态、动作以及去噪过程嵌入到球谐傅里叶空间中,从而实现SE(3)等变性。通过在球谐傅里叶空间中进行操作,模型能够更好地理解和利用场景的3D变换信息,从而提高泛化能力。
技术框架:SDP的整体框架包括以下几个主要模块:1) 状态和动作的球谐傅里叶嵌入;2) 球谐FiLM层,用于将场景嵌入以等变的方式调节动作去噪过程;3) 球谐去噪时间U-net,用于实现时空等变的去噪过程。整个框架是端到端可训练的,能够直接从人类演示数据中学习操作策略。
关键创新:论文最重要的技术创新在于将球谐傅里叶空间引入到扩散策略中,从而实现了SE(3)等变性。与现有方法相比,SDP能够更好地处理3D场景的变换,从而提高泛化能力。此外,球谐FiLM层和球谐去噪时间U-net也是针对SE(3)等变性设计的创新模块。
关键设计:球谐傅里叶嵌入的具体实现方式是将状态和动作表示为球谐函数的线性组合。球谐FiLM层通过学习球谐傅里叶系数的缩放和偏移参数,来实现对动作去噪过程的调节。球谐去噪时间U-net采用3D卷积和球谐卷积相结合的方式,来实现时空等变的去噪过程。损失函数采用标准的扩散模型损失函数,即预测噪声与真实噪声之间的均方误差。
🖼️ 关键图片
📊 实验亮点
SDP在20个模拟任务和5个真实机器人任务中进行了评估,结果表明SDP显著优于现有基线方法。例如,在物体抓取任务中,SDP的成功率比最佳基线提高了15%以上。实验结果验证了SDP在提高机器人操作策略泛化能力方面的有效性。
🎯 应用场景
该研究成果可广泛应用于机器人操作领域,例如自动化装配、物体抓取、环境探索等。通过提高机器人对3D场景变化的适应能力,可以降低对环境的精确建模要求,提高机器人在复杂和动态环境中的鲁棒性和可靠性。未来,该方法有望应用于更广泛的机器人任务,例如无人驾驶、医疗机器人等。
📄 摘要(原文)
Diffusion Policies are effective at learning closed-loop manipulation policies from human demonstrations but generalize poorly to novel arrangements of objects in 3D space, hurting real-world performance. To address this issue, we propose Spherical Diffusion Policy (SDP), an SE(3) equivariant diffusion policy that adapts trajectories according to 3D transformations of the scene. Such equivariance is achieved by embedding the states, actions, and the denoising process in spherical Fourier space. Additionally, we employ novel spherical FiLM layers to condition the action denoising process equivariantly on the scene embeddings. Lastly, we propose a spherical denoising temporal U-net that achieves spatiotemporal equivariance with computational efficiency. In the end, SDP is end-to-end SE(3) equivariant, allowing robust generalization across transformed 3D scenes. SDP demonstrates a large performance improvement over strong baselines in 20 simulation tasks and 5 physical robot tasks including single-arm and bi-manual embodiments. Code is available at https://github.com/amazon-science/Spherical_Diffusion_Policy.