Efficient Hybrid SE(3)-Equivariant Visuomotor Flow Policy via Spherical Harmonics for Robot Manipulation

作者: Qinglun Zhang, Shen Cheng, Tian Dan, Haoqiang Fan, Guanghui Liu, Shuaicheng Liu

分类: cs.RO

发布日期: 2026-03-24

备注: Accepted by CVPR 2026

🔗 代码/项目: GITHUB

💡 一句话要点

E3Flow：基于球谐函数的SE(3)等变混合视觉运动流策略，提升机器人操作效率。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 机器人操作 等变学习 修正流 球谐函数 多模态融合

📋 核心要点

现有等变方法存在计算量大、依赖单模态输入以及与快速采样方法结合时不稳定等问题。
E3Flow通过球谐函数表示确保SO(3)等变性，并使用特征增强模块动态融合点云和图像等多模态视觉信息。
实验结果表明，E3Flow在模拟环境中成功率提升3.12%，推理速度提升7倍，并在真实世界环境中验证了有效性。

📝 摘要（中文）

现有等变方法虽然提高了数据效率，但计算强度高，依赖单一模态输入，且与快速采样方法结合时不稳定。本文提出了E3Flow，一种新颖的框架，旨在解决等变扩散策略的关键局限性。E3Flow首次成功地将高效的修正流与稳定、多模态的等变学习统一起来。该框架基于球谐函数表示，以确保严格的SO(3)等变性。我们引入了一种新的不变特征增强模块（FEM），该模块动态融合混合视觉模态（点云和图像），将丰富的视觉线索注入到球谐函数特征中。我们在MimicGen的8个操作任务上评估了E3Flow，并进行了4个真实世界的实验，以验证其在物理环境中的有效性。仿真结果表明，E3Flow在平均成功率上比最先进的球谐扩散策略（SDP）提高了3.12%，同时实现了7倍的推理速度提升。E3Flow展示了机器人策略学习在性能、效率和数据效率之间一种新的且高效的权衡。

🔬 方法详解

问题定义：现有基于等变性的机器人操作策略，虽然在数据效率上有所提升，但普遍存在计算复杂度高、依赖单一视觉模态输入（如仅使用点云）以及与快速采样方法结合时训练不稳定的问题。这些问题限制了它们在实际机器人应用中的部署。

核心思路：E3Flow的核心思路是将高效的修正流（Rectified Flow）与稳定的多模态等变学习相结合。通过利用球谐函数来表示SE(3)变换，确保策略的等变性，并设计特征增强模块（FEM）来融合多种视觉模态的信息，从而提高策略的性能和鲁棒性。这种设计旨在克服现有方法的计算瓶颈和模态依赖问题，同时保证训练的稳定性。

技术框架：E3Flow的整体框架包含以下几个主要模块：1) 球谐函数表示模块：用于将输入数据（如点云和图像特征）转换为球谐函数表示，以确保SO(3)等变性。2) 特征增强模块（FEM）：用于动态融合来自不同视觉模态的特征，并将这些特征注入到球谐函数特征中。3) 修正流模块：利用修正流来学习从初始状态到目标状态的映射，从而生成机器人控制指令。整个流程是，首先将多模态视觉输入编码为等变的球谐函数特征，然后通过FEM进行特征融合增强，最后利用修正流预测动作。

关键创新：E3Flow的关键创新在于：1) 首次将高效的修正流与稳定的多模态等变学习相结合，克服了传统等变方法的计算瓶颈。2) 提出了特征增强模块（FEM），能够动态融合多种视觉模态的信息，提高了策略的鲁棒性和泛化能力。3) 利用球谐函数表示确保了严格的SO(3)等变性，从而提高了数据效率。

关键设计：FEM模块的设计是关键。它采用注意力机制来动态融合点云和图像特征。损失函数包括修正流的损失和等变性损失，用于优化策略的性能和等变性。网络结构方面，使用了多层感知机（MLP）和卷积神经网络（CNN）来提取特征，并使用球谐函数层进行等变表示。

🖼️ 关键图片

📊 实验亮点

E3Flow在MimicGen的8个操作任务上进行了评估，结果表明，E3Flow在平均成功率上比最先进的球谐扩散策略（SDP）提高了3.12%，同时实现了7倍的推理速度提升。此外，还在真实世界的4个机器人操作任务中验证了E3Flow的有效性，证明了其在物理环境中的可行性。

🎯 应用场景

E3Flow具有广泛的应用前景，可应用于各种机器人操作任务，如物体抓取、装配、导航等。该研究成果有助于提升机器人在复杂环境中的适应性和智能化水平，加速机器人技术在工业自动化、医疗健康、家庭服务等领域的应用。未来，可以进一步探索E3Flow在更复杂的任务和环境中的应用，并研究如何将其与其他先进的机器人学习技术相结合。

📄 摘要（原文）

While existing equivariant methods enhance data efficiency, they suffer from high computational intensity, reliance on single-modality inputs, and instability when combined with fast-sampling methods. In this work, we propose E3Flow, a novel framework that addresses the critical limitations of equivariant diffusion policies. E3Flow overcomes these challenges, successfully unifying efficient rectified flow with stable, multi-modal equivariant learning for the first time. Our framework is built upon spherical harmonic representations to ensure rigorous SO(3) equivariance. We introduce a novel invariant Feature Enhancement Module (FEM) that dynamically fuses hybrid visual modalities (point clouds and images), injecting rich visual cues into the spherical harmonic features. We evaluate E3Flow on 8 manipulation tasks from the MimicGen and further conduct 4 real-world experiments to validate its effectiveness in physical environments. Simulation results show that E3Flow achieves a 3.12% improvement in average success rate over the state-of-the-art Spherical Diffusion Policy (SDP) while simultaneously delivering a 7x inference speedup. E3Flow thus demonstrates a new and highly effective trade-off between performance, efficiency, and data efficiency for robotic policy learning. Code: https://github.com/zql-kk/E3Flow.

Efficient Hybrid SE(3)-Equivariant Visuomotor Flow Policy via Spherical Harmonics for Robot Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理