GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale Synthetic Action Data

作者: Shengliang Deng, Mi Yan, Songlin Wei, Haixin Ma, Yuxin Yang, Jiayi Chen, Zhiqi Zhang, Taoyu Yang, Xuheng Zhang, Wenhao Zhang, Heming Cui, Zhizheng Zhang, He Wang

分类: cs.RO

发布日期: 2025-05-06 (更新: 2025-08-27)

💡 一句话要点

GraspVLA：基于十亿级合成动作数据预训练的抓取基础模型

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人抓取 具身智能 基础模型 合成数据 视觉-语言-动作模型 零样本学习 领域泛化

📋 核心要点

现有具身智能模型依赖昂贵的真实数据，限制了其扩展性和泛化能力，探索低成本的合成数据训练方案至关重要。
GraspVLA利用大规模合成数据SynGrasp-1B预训练VLA模型，结合自回归感知和流匹配动作生成，实现开放词汇抓取。
实验表明GraspVLA在真实和模拟环境中均表现出优秀的零样本泛化能力和少量样本适应性。

📝 摘要（中文）

具身智能基础模型因其零样本泛化能力、可扩展性以及通过少量样本后训练适应新任务的能力而受到越来越多的关注。然而，现有模型严重依赖真实世界的数据，而收集这些数据成本高昂且耗费人力。合成数据提供了一种经济高效的替代方案，但其潜力在很大程度上仍未被探索。为了弥合这一差距，我们探索了完全使用大规模合成动作数据训练视觉-语言-动作模型的可行性。我们创建了SynGrasp-1B，一个包含十亿帧的机器人抓取数据集，该数据集在具有照片级真实感渲染和广泛领域随机化的模拟环境中生成。在此基础上，我们提出了GraspVLA，一个基于大规模合成动作数据预训练的VLA模型，作为抓取任务的基础模型。GraspVLA将自回归感知任务和基于流匹配的动作生成集成到一个统一的思维链过程中，从而可以在合成动作数据和互联网语义数据上进行联合训练。这种设计有助于弥合模拟到真实的差距，并促进将学习到的动作转移到更广泛的互联网覆盖对象，从而实现抓取的开放词汇泛化。在真实世界和模拟基准上的广泛评估表明，GraspVLA具有先进的零样本泛化能力和少量样本适应特定人类偏好的能力。我们将发布SynGrasp-1B数据集和预训练权重，以使社区受益。

🔬 方法详解

问题定义：现有机器人抓取模型依赖大量真实数据，收集成本高昂，且难以覆盖所有可能的物体和场景。Sim-to-real gap 也是一个挑战，导致在模拟环境中训练的模型难以直接应用于真实世界。因此，需要一种方法，能够利用低成本的合成数据，训练出具有良好泛化能力的抓取模型。

核心思路：论文的核心思路是利用大规模合成数据预训练视觉-语言-动作（VLA）模型，并通过特定的训练策略，弥合模拟环境和真实环境之间的差距。通过在包含大量不同物体和场景的合成数据上进行预训练，模型可以学习到通用的抓取策略，从而在真实世界中也能表现良好。

技术框架：GraspVLA的整体框架包含以下几个主要模块：1) 数据集SynGrasp-1B：包含十亿帧的合成抓取数据，具有照片级真实感渲染和广泛的领域随机化。2) VLA模型：采用视觉-语言-动作模型，用于学习抓取策略。3) 自回归感知任务：用于理解场景信息。4) 基于流匹配的动作生成：用于生成抓取动作。5) 联合训练：在合成动作数据和互联网语义数据上进行联合训练，以提高模型的泛化能力。

关键创新：论文的关键创新在于：1) 提出了GraspVLA模型，一个基于大规模合成数据预训练的VLA模型，用于抓取任务。2) 提出了SynGrasp-1B数据集，一个包含十亿帧的合成抓取数据集。3) 将自回归感知任务和基于流匹配的动作生成集成到一个统一的思维链过程中，从而可以在合成动作数据和互联网语义数据上进行联合训练。

关键设计：GraspVLA的关键设计包括：1) 使用大规模合成数据SynGrasp-1B进行预训练，以提高模型的泛化能力。2) 采用自回归感知任务，使模型能够理解场景信息。3) 使用基于流匹配的动作生成方法，生成平滑自然的抓取动作。4) 在合成动作数据和互联网语义数据上进行联合训练，以弥合模拟环境和真实环境之间的差距。

🖼️ 关键图片

📊 实验亮点

GraspVLA在真实世界和模拟环境的基准测试中表现出色，展示了其强大的零样本泛化能力和少量样本适应性。具体性能数据和与现有方法的详细对比将在论文中给出。该模型成功地将学习到的动作转移到更广泛的互联网覆盖对象，实现了抓取的开放词汇泛化。

🎯 应用场景

GraspVLA具有广泛的应用前景，包括：1) 工业自动化：可用于机器人自动抓取和装配。2) 家庭服务机器人：可用于帮助人们完成家务，如整理物品、清洁等。3) 医疗机器人：可用于辅助医生进行手术或护理病人。4) 物流仓储：可用于自动分拣和搬运货物。该研究有望降低机器人抓取系统的开发成本，加速机器人在各个领域的应用。

📄 摘要（原文）

Embodied foundation models are gaining increasing attention for their zero-shot generalization, scalability, and adaptability to new tasks through few-shot post-training. However, existing models rely heavily on real-world data, which is costly and labor-intensive to collect. Synthetic data offers a cost-effective alternative, yet its potential remains largely underexplored. To bridge this gap, we explore the feasibility of training Vision-Language-Action models entirely with large-scale synthetic action data. We curate SynGrasp-1B, a billion-frame robotic grasping dataset generated in simulation with photorealistic rendering and extensive domain randomization. Building on this, we present GraspVLA, a VLA model pretrained on large-scale synthetic action data as a foundational model for grasping tasks. GraspVLA integrates autoregressive perception tasks and flow-matching-based action generation into a unified Chain-of-Thought process, enabling joint training on synthetic action data and Internet semantics data. This design helps mitigate sim-to-real gaps and facilitates the transfer of learned actions to a broader range of Internet-covered objects, achieving open-vocabulary generalization in grasping. Extensive evaluations across real-world and simulation benchmarks demonstrate GraspVLA's advanced zero-shot generalizability and few-shot adaptability to specific human preferences. We will release SynGrasp-1B dataset and pre-trained weights to benefit the community.

GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale Synthetic Action Data

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理