DexVLG: Dexterous Vision-Language-Grasp Model at Scale

📄 arXiv: 2507.02747v1 📥 PDF

作者: Jiawei He, Danshi Li, Xinqiang Yu, Zekun Qi, Wenyao Zhang, Jiayi Chen, Zhaoxiang Zhang, Zhizheng Zhang, Li Yi, He Wang

分类: cs.CV, cs.RO

发布日期: 2025-07-03


💡 一句话要点

DexVLG:大规模灵巧手视觉-语言-抓取模型,实现指令驱动的部件级抓取

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 灵巧手抓取 视觉语言模型 流匹配 部件级抓取 机器人操作

📋 核心要点

  1. 现有VLA系统在灵巧手控制方面受限于数据收集,缺乏对复杂部件级抓取的支持。
  2. DexVLG通过大规模数据集和VLM驱动的姿势预测,实现了指令驱动的灵巧手部件级抓取。
  3. 实验表明DexVLG在模拟和真实世界中均表现出强大的零样本泛化能力和部件抓取精度。

📝 摘要(中文)

随着大型模型的发展,视觉-语言-动作(VLA)系统正使机器人能够处理日益复杂的任务。然而,由于数据收集的困难,研究主要集中在控制简单的夹爪末端执行器上。对于使用大型模型进行类人灵巧手的函数式抓取研究较少。本文介绍了DexVLG,一个大型视觉-语言-抓取模型,用于预测与语言指令对齐的灵巧抓取姿势,输入为单视角RGBD图像。为了实现这一目标,我们生成了一个包含1.7亿个灵巧抓取姿势的数据集,这些姿势映射到模拟环境中174,000个对象的语义部件,并配有详细的部件级描述。这个名为DexGraspNet 3.0的大规模数据集用于训练一个基于VLM和流匹配的姿势头部,能够为桌面对象生成与指令对齐的抓取姿势。为了评估DexVLG的性能,我们在基于物理的模拟中创建了基准,并进行了真实世界的实验。广泛的测试表明DexVLG具有强大的零样本泛化能力——在模拟中实现了超过76%的零样本执行成功率和最先进的部件抓取精度——并在真实场景中成功地对物理对象进行了部件对齐的抓取。

🔬 方法详解

问题定义:现有视觉-语言-动作(VLA)系统在机器人灵巧操作方面,特别是使用灵巧手进行复杂抓取任务时,面临数据稀缺的挑战。以往研究主要集中于简单的夹爪控制,缺乏对类人灵巧手进行精细化、部件级抓取的研究,难以满足复杂操作任务的需求。现有方法无法有效利用视觉和语言信息,实现指令驱动的、针对特定部件的抓取。

核心思路:DexVLG的核心思路是利用大规模的模拟数据,训练一个能够理解视觉和语言信息,并预测与指令对齐的灵巧手抓取姿势的模型。通过构建包含大量对象、部件和抓取姿势的数据集,并结合视觉语言模型(VLM)和流匹配技术,使模型能够学习到从单视角RGBD图像和语言指令到抓取姿势的映射关系。这种方法旨在克服数据稀缺问题,并提高模型在真实世界中的泛化能力。

技术框架:DexVLG的整体框架包括以下几个主要模块:1) 大规模数据集DexGraspNet 3.0的构建,包含1.7亿个灵巧抓取姿势和对应的部件级描述;2) 基于视觉语言模型(VLM)的特征提取器,用于提取RGBD图像和语言指令的特征;3) 基于流匹配的姿势头部,用于预测与指令对齐的抓取姿势。模型首先利用VLM提取视觉和语言特征,然后通过流匹配方法将这些特征映射到抓取姿势空间,最终生成可执行的灵巧手抓取动作。

关键创新:DexVLG的关键创新在于:1) 构建了大规模的DexGraspNet 3.0数据集,为训练灵巧手抓取模型提供了充足的数据;2) 提出了基于流匹配的姿势头部,能够有效地学习从视觉和语言特征到抓取姿势的映射关系;3) 实现了指令驱动的部件级抓取,使得机器人能够根据用户的指令,抓取对象的特定部件。与现有方法相比,DexVLG能够更好地利用视觉和语言信息,实现更精确、更灵活的抓取操作。

关键设计:在数据集构建方面,作者精心设计了模拟环境和抓取姿势生成策略,确保数据的多样性和质量。在模型训练方面,作者采用了对比学习和流匹配等技术,优化模型的学习效果。具体来说,VLM部分使用了预训练的视觉语言模型,并针对抓取任务进行了微调。流匹配部分,作者设计了特定的损失函数,以保证生成的抓取姿势的合理性和准确性。此外,作者还对网络结构和超参数进行了细致的调整,以获得最佳的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DexVLG在模拟环境中取得了显著的成果,零样本执行成功率超过76%,并在部件抓取精度方面达到了最先进水平。在真实世界的实验中,DexVLG也成功地对物理对象进行了部件对齐的抓取,验证了其在真实场景中的可行性和泛化能力。这些实验结果表明,DexVLG能够有效地利用视觉和语言信息,实现精确、灵活的抓取操作。

🎯 应用场景

DexVLG具有广泛的应用前景,例如在智能制造领域,机器人可以根据指令抓取生产线上的特定零件;在家庭服务领域,机器人可以帮助人们整理物品,抓取指定位置的物体;在医疗领域,机器人可以辅助医生进行手术操作,抓取精细的医疗器械。该研究的实际价值在于提高了机器人的操作能力和智能化水平,未来有望推动机器人技术在各个领域的广泛应用。

📄 摘要(原文)

As large models gain traction, vision-language-action (VLA) systems are enabling robots to tackle increasingly complex tasks. However, limited by the difficulty of data collection, progress has mainly focused on controlling simple gripper end-effectors. There is little research on functional grasping with large models for human-like dexterous hands. In this paper, we introduce DexVLG, a large Vision-Language-Grasp model for Dexterous grasp pose prediction aligned with language instructions using single-view RGBD input. To accomplish this, we generate a dataset of 170 million dexterous grasp poses mapped to semantic parts across 174,000 objects in simulation, paired with detailed part-level captions. This large-scale dataset, named DexGraspNet 3.0, is used to train a VLM and flow-matching-based pose head capable of producing instruction-aligned grasp poses for tabletop objects. To assess DexVLG's performance, we create benchmarks in physics-based simulations and conduct real-world experiments. Extensive testing demonstrates DexVLG's strong zero-shot generalization capabilities-achieving over 76% zero-shot execution success rate and state-of-the-art part-grasp accuracy in simulation-and successful part-aligned grasps on physical objects in real-world scenarios.