BiGraspFormer: End-to-End Bimanual Grasp Transformer

作者: Kangmin Kim, Seunghyeok Back, Geonhyup Lee, Sangbeom Lee, Sangjun Noh, Kyoobin Lee

分类: cs.RO

发布日期: 2025-09-23

备注: 8 pages, 5 figures

💡 一句话要点

BiGraspFormer：端到端双臂抓取Transformer，解决复杂物体操作中的协调问题。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 双臂抓取 机器人操作 Transformer 点云处理 单引导双臂 端到端学习 机器人视觉

📋 核心要点

现有双臂抓取方法在协调性方面存在不足，容易出现碰撞和力分布不均等问题。
BiGraspFormer采用单引导双臂（SGB）策略，利用Transformer直接生成协调的双臂抓取。
实验结果表明，BiGraspFormer在性能上优于现有方法，并保持了高效的推理速度。

📝 摘要（中文）

双臂抓取对于机器人处理大型和复杂物体至关重要。然而，现有方法要么只关注单臂抓取，要么采用分离的抓取生成和双臂评估阶段，导致协调问题，包括碰撞风险和不平衡的力分布。为了解决这些限制，我们提出了BiGraspFormer，一个统一的端到端Transformer框架，可以直接从物体点云生成协调的双臂抓取。我们的核心思想是单引导双臂（SGB）策略，该策略首先使用Transformer解码器生成多样化的单抓取候选，然后利用其学习到的特征，通过专门的注意力机制来联合预测双臂姿态和质量分数。这种条件策略降低了12自由度搜索空间的复杂性，同时确保了协调的双臂操作。全面的仿真实验和真实世界验证表明，BiGraspFormer始终优于现有方法，同时保持了高效的推理速度（<0.05秒），证实了我们框架的有效性。

🔬 方法详解

问题定义：现有双臂抓取方法通常采用分离的抓取生成和评估流程，导致左右臂之间缺乏有效的协调，容易出现碰撞风险和力分布不平衡的问题。此外，直接搜索12自由度的双臂抓取空间计算量巨大，效率低下。

核心思路：BiGraspFormer的核心思路是采用“单引导双臂”（Single-Guided Bimanual, SGB）策略。首先，利用Transformer生成高质量的单臂抓取候选，然后将这些单臂抓取的特征作为引导，通过注意力机制来预测最终的双臂抓取姿态和质量评分。这种方式有效地降低了搜索空间的维度，并保证了双臂抓取的协调性。

技术框架：BiGraspFormer整体是一个端到端的Transformer框架。它主要包含以下几个模块：1) 点云特征提取模块：用于提取输入物体点云的特征表示。2) 单臂抓取候选生成模块：使用Transformer解码器生成多个单臂抓取候选，并学习其特征。3) 双臂抓取预测模块：利用单臂抓取候选的特征，通过注意力机制联合预测双臂的姿态和质量评分。4) 抓取评估模块：根据预测的双臂姿态，评估抓取的质量，例如稳定性、碰撞情况等。

关键创新：BiGraspFormer的关键创新在于其SGB策略，即先生成单臂抓取候选，再利用这些候选引导双臂抓取的预测。这种策略将复杂的12自由度搜索问题分解为更易处理的子问题，显著降低了计算复杂度，并保证了双臂抓取的协调性。此外，端到端的Transformer架构也使得模型能够直接从点云预测双臂抓取，避免了中间步骤的误差累积。

关键设计：在单臂抓取候选生成模块中，使用了Transformer解码器来生成多样化的抓取姿态。在双臂抓取预测模块中，采用了注意力机制来融合单臂抓取候选的特征，并预测最终的双臂姿态。损失函数包括抓取姿态回归损失和抓取质量评分损失。为了平衡左右臂的力分布，可以引入额外的力平衡损失。具体的网络结构和参数设置需要根据实际应用场景进行调整。

🖼️ 关键图片

📊 实验亮点

BiGraspFormer在仿真实验和真实世界实验中均表现出色，显著优于现有方法。在仿真实验中，BiGraspFormer的抓取成功率明显高于其他基线方法。更重要的是，BiGraspFormer保持了高效的推理速度，小于0.05秒，使其能够满足实时性要求较高的应用场景。

🎯 应用场景

BiGraspFormer在工业自动化、家庭服务机器人等领域具有广泛的应用前景。例如，它可以用于机器人组装线，实现对复杂零件的双臂抓取和装配；也可以用于家庭服务机器人，帮助老年人或残疾人完成日常物品的取放。该研究的突破将推动机器人操作的智能化和自动化水平。

📄 摘要（原文）

Bimanual grasping is essential for robots to handle large and complex objects. However, existing methods either focus solely on single-arm grasping or employ separate grasp generation and bimanual evaluation stages, leading to coordination problems including collision risks and unbalanced force distribution. To address these limitations, we propose BiGraspFormer, a unified end-to-end transformer framework that directly generates coordinated bimanual grasps from object point clouds. Our key idea is the Single-Guided Bimanual (SGB) strategy, which first generates diverse single grasp candidates using a transformer decoder, then leverages their learned features through specialized attention mechanisms to jointly predict bimanual poses and quality scores. This conditioning strategy reduces the complexity of the 12-DoF search space while ensuring coordinated bimanual manipulation. Comprehensive simulation experiments and real-world validation demonstrate that BiGraspFormer consistently outperforms existing methods while maintaining efficient inference speed (<0.05s), confirming the effectiveness of our framework. Code and supplementary materials are available at https://sites.google.com/bigraspformer

BiGraspFormer: End-to-End Bimanual Grasp Transformer

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理