Efficient Hybrid SE(3)-Equivariant Visuomotor Flow Policy via Spherical Harmonics for Robot Manipulation

📄 arXiv: 2603.23227v1 📥 PDF

作者: Qinglun Zhang, Shen Cheng, Tian Dan, Haoqiang Fan, Guanghui Liu, Shuaicheng Liu

分类: cs.RO

发布日期: 2026-03-24

备注: Accepted by CVPR 2026

🔗 代码/项目: GITHUB


💡 一句话要点

E3Flow:基于球谐函数的SE(3)等变混合视觉运动流策略,提升机器人操作效率。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人操作 等变学习 修正流 球谐函数 多模态融合

📋 核心要点

  1. 现有等变方法存在计算量大、依赖单模态输入以及与快速采样方法结合时不稳定等问题。
  2. E3Flow通过球谐函数表示确保SO(3)等变性,并使用特征增强模块动态融合点云和图像等多模态视觉信息。
  3. 实验结果表明,E3Flow在模拟环境中成功率提升3.12%,推理速度提升7倍,并在真实世界环境中验证了有效性。

📝 摘要(中文)

现有等变方法虽然提高了数据效率,但计算强度高,依赖单一模态输入,且与快速采样方法结合时不稳定。本文提出了E3Flow,一种新颖的框架,旨在解决等变扩散策略的关键局限性。E3Flow首次成功地将高效的修正流与稳定、多模态的等变学习统一起来。该框架基于球谐函数表示,以确保严格的SO(3)等变性。我们引入了一种新的不变特征增强模块(FEM),该模块动态融合混合视觉模态(点云和图像),将丰富的视觉线索注入到球谐函数特征中。我们在MimicGen的8个操作任务上评估了E3Flow,并进行了4个真实世界的实验,以验证其在物理环境中的有效性。仿真结果表明,E3Flow在平均成功率上比最先进的球谐扩散策略(SDP)提高了3.12%,同时实现了7倍的推理速度提升。E3Flow展示了机器人策略学习在性能、效率和数据效率之间一种新的且高效的权衡。

🔬 方法详解

问题定义:现有基于等变性的机器人操作策略,虽然在数据效率上有所提升,但普遍存在计算复杂度高、依赖单一视觉模态输入(如仅使用点云)以及与快速采样方法结合时训练不稳定的问题。这些问题限制了它们在实际机器人应用中的部署。

核心思路:E3Flow的核心思路是将高效的修正流(Rectified Flow)与稳定的多模态等变学习相结合。通过利用球谐函数来表示SE(3)变换,确保策略的等变性,并设计特征增强模块(FEM)来融合多种视觉模态的信息,从而提高策略的性能和鲁棒性。这种设计旨在克服现有方法的计算瓶颈和模态依赖问题,同时保证训练的稳定性。

技术框架:E3Flow的整体框架包含以下几个主要模块:1) 球谐函数表示模块:用于将输入数据(如点云和图像特征)转换为球谐函数表示,以确保SO(3)等变性。2) 特征增强模块(FEM):用于动态融合来自不同视觉模态的特征,并将这些特征注入到球谐函数特征中。3) 修正流模块:利用修正流来学习从初始状态到目标状态的映射,从而生成机器人控制指令。整个流程是,首先将多模态视觉输入编码为等变的球谐函数特征,然后通过FEM进行特征融合增强,最后利用修正流预测动作。

关键创新:E3Flow的关键创新在于:1) 首次将高效的修正流与稳定的多模态等变学习相结合,克服了传统等变方法的计算瓶颈。2) 提出了特征增强模块(FEM),能够动态融合多种视觉模态的信息,提高了策略的鲁棒性和泛化能力。3) 利用球谐函数表示确保了严格的SO(3)等变性,从而提高了数据效率。

关键设计:FEM模块的设计是关键。它采用注意力机制来动态融合点云和图像特征。损失函数包括修正流的损失和等变性损失,用于优化策略的性能和等变性。网络结构方面,使用了多层感知机(MLP)和卷积神经网络(CNN)来提取特征,并使用球谐函数层进行等变表示。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

E3Flow在MimicGen的8个操作任务上进行了评估,结果表明,E3Flow在平均成功率上比最先进的球谐扩散策略(SDP)提高了3.12%,同时实现了7倍的推理速度提升。此外,还在真实世界的4个机器人操作任务中验证了E3Flow的有效性,证明了其在物理环境中的可行性。

🎯 应用场景

E3Flow具有广泛的应用前景,可应用于各种机器人操作任务,如物体抓取、装配、导航等。该研究成果有助于提升机器人在复杂环境中的适应性和智能化水平,加速机器人技术在工业自动化、医疗健康、家庭服务等领域的应用。未来,可以进一步探索E3Flow在更复杂的任务和环境中的应用,并研究如何将其与其他先进的机器人学习技术相结合。

📄 摘要(原文)

While existing equivariant methods enhance data efficiency, they suffer from high computational intensity, reliance on single-modality inputs, and instability when combined with fast-sampling methods. In this work, we propose E3Flow, a novel framework that addresses the critical limitations of equivariant diffusion policies. E3Flow overcomes these challenges, successfully unifying efficient rectified flow with stable, multi-modal equivariant learning for the first time. Our framework is built upon spherical harmonic representations to ensure rigorous SO(3) equivariance. We introduce a novel invariant Feature Enhancement Module (FEM) that dynamically fuses hybrid visual modalities (point clouds and images), injecting rich visual cues into the spherical harmonic features. We evaluate E3Flow on 8 manipulation tasks from the MimicGen and further conduct 4 real-world experiments to validate its effectiveness in physical environments. Simulation results show that E3Flow achieves a 3.12% improvement in average success rate over the state-of-the-art Spherical Diffusion Policy (SDP) while simultaneously delivering a 7x inference speedup. E3Flow thus demonstrates a new and highly effective trade-off between performance, efficiency, and data efficiency for robotic policy learning. Code: https://github.com/zql-kk/E3Flow.