EquiBim: Learning Symmetry-Equivariant Policy for Bimanual Manipulation

📄 arXiv: 2603.08541v1 📥 PDF

作者: Zhiyuan Zhang, Aditya Mohan, Seungho Han, Wan Shou, Dongyi Wang, Yu She

分类: cs.RO

发布日期: 2026-03-09

备注: Submitted to IROS 2026. 8 pages, 6 figures


💡 一句话要点

EquiBim:学习对称等变策略的双臂操作模仿学习框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 双臂操作 模仿学习 对称等变性 机器人学习 物理对称性

📋 核心要点

  1. 现有机器人学习方法在处理双臂操作时,未能充分利用机器人和任务固有的对称性,导致性能受限。
  2. EquiBim通过在训练中强制执行观测和动作之间的对称等变性,显式地利用物理对称性作为归纳偏置。
  3. 实验表明,EquiBim在模拟和真实机器人上均能提高双臂操作的性能和鲁棒性,尤其是在分布偏移情况下。

📝 摘要(中文)

机器人模仿学习在学习复杂操作行为方面取得了显著成功。然而,许多现有的机器人学习方法没有明确考虑机器人系统的物理对称性,导致在对称观测下产生不对称或不一致的行为。这种局限性在双臂操作中尤为明显,因为双边对称性是机器人形态和许多任务结构的固有属性。本文提出了EquiBim,一个用于双臂操作的对称等变策略学习框架,它在训练过程中强制执行观测和动作之间的双边等变性。我们的方法将物理对称性形式化为观测和动作空间上的群作用,并对对称变换下的策略预测施加等变约束。该框架与模型无关,可以无缝集成到各种具有不同观测模式和动作表示的模仿学习流程中,包括基于点云和图像的策略,以及末端执行器空间和关节空间参数化。我们在具有对称运动学的双臂机器人平台RoboTwin上评估了EquiBim,并在模拟中评估了其在各种观测和动作配置下的性能。我们进一步在真实世界的双臂系统上验证了该方法。在模拟和物理实验中,我们的方法始终如一地提高了性能和在分布偏移下的鲁棒性。这些结果表明,显式地强制执行物理对称性为双臂机器人学习提供了一种简单而有效的归纳偏置。

🔬 方法详解

问题定义:现有的机器人模仿学习方法,尤其是在双臂操作任务中,通常忽略了机器人系统和任务本身的物理对称性。这导致学习到的策略在对称的观测下产生不对称的动作,降低了策略的泛化能力和鲁棒性。因此,需要一种能够显式利用对称性的方法来提高双臂操作策略的性能。

核心思路:EquiBim的核心思路是将物理对称性建模为观测空间和动作空间上的群作用,并强制策略在对称变换下保持等变性。这意味着,如果对观测进行对称变换,那么策略输出的动作也应该进行相应的对称变换。通过这种方式,EquiBim能够学习到对对称性更加敏感和鲁棒的策略。

技术框架:EquiBim可以集成到现有的模仿学习流程中。其主要步骤包括:1) 定义观测空间和动作空间上的对称变换群;2) 在训练过程中,对观测进行随机的对称变换;3) 使用等变损失函数来约束策略的输出,使得策略在对称变换下保持等变性。该框架支持多种观测模态(如点云、图像)和动作表示(如末端执行器空间、关节空间)。

关键创新:EquiBim的关键创新在于显式地将物理对称性作为一种归纳偏置引入到双臂机器人学习中。与以往忽略对称性的方法相比,EquiBim能够学习到更加鲁棒和泛化的策略。此外,EquiBim的框架是模型无关的,可以方便地集成到各种现有的模仿学习算法中。

关键设计:EquiBim的关键设计包括:1) 对称变换群的定义:需要根据具体的机器人和任务来定义合适的对称变换群。例如,对于具有双边对称性的机器人,可以使用镜像变换作为对称变换;2) 等变损失函数:可以使用多种等变损失函数来约束策略的输出。一种常用的方法是最小化策略输出的动作与对称变换后的动作之间的距离。3) 网络结构:可以使用各种神经网络结构来实现等变策略。例如,可以使用等变卷积神经网络来处理图像观测。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在RoboTwin双臂机器人平台上的实验结果表明,EquiBim在模拟和真实环境中均能显著提高双臂操作的性能。例如,在分布偏移情况下,EquiBim的成功率比基线方法提高了10%-20%。此外,EquiBim还表现出更好的鲁棒性和泛化能力。

🎯 应用场景

EquiBim可应用于各种需要双臂协同操作的机器人任务,例如装配、抓取、操作工具等。该方法能够提高机器人在复杂环境中的操作性能和鲁棒性,降低对训练数据的需求,并有望推动机器人技术在工业自动化、医疗康复等领域的应用。

📄 摘要(原文)

Robotic imitation learning has achieved impressive success in learning complex manipulation behaviors from demonstrations. However, many existing robot learning methods do not explicitly account for the physical symmetries of robotic systems, often resulting in asymmetric or inconsistent behaviors under symmetric observations. This limitation is particularly pronounced in dual-arm manipulation, where bilateral symmetry is inherent to both the robot morphology and the structure of many tasks. In this paper, we introduce EquiBim, a symmetry-equivariant policy learning framework for bimanual manipulation that enforces bilateral equivariance between observations and actions during training. Our approach formulates physical symmetry as a group action on both observation and action spaces, and imposes an equivariance constraint on policy predictions under symmetric transformations. The framework is model-agnostic and can be seamlessly integrated into a wide range of imitation learning pipelines with diverse observation modalities and action representations, including point cloud-based and image-based policies, as well as both end-effector-space and joint-space parameterizations. We evaluate EquiBim on RoboTwin, a dual-arm robotic platform with symmetric kinematics, and evaluate it across diverse observation and action configurations in simulation. We further validate the approach on a real-world dual-arm system. Across both simulation and physical experiments, our method consistently improves performance and robustness under distribution shifts. These results suggest that explicitly enforcing physical symmetry provides a simple yet effective inductive bias for bimanual robot learning.