RealVLG-R1: A Large-Scale Real-World Visual-Language Grounding Benchmark for Robotic Perception and Manipulation
作者: Linfei Li, Lin Zhang, Ying Shen
分类: cs.CV
发布日期: 2026-03-16
备注: Accepted by CVPR 2026
🔗 代码/项目: GITHUB
💡 一句话要点
RealVLG-R1:用于机器人感知与操作的大规模真实世界视觉-语言定位基准
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言定位 机器人抓取 强化学习 多模态学习 数据集构建 零样本学习 机器人操作 预训练模型
📋 核心要点
- 现有视觉-语言定位方法在机器人操作中缺乏细粒度定位和语言指导,限制了其应用。
- RealVLG框架通过集成RealVLG-11B数据集和RealVLG-R1模型,统一视觉-语言定位和抓取任务。
- RealVLG支持真实世界未见环境中的零样本感知和操作,为机器人感知和抓取策略学习提供平台。
📝 摘要(中文)
视觉-语言定位旨在建立自然语言和视觉实体之间的语义对应关系,使模型能够根据文本指令准确识别和定位目标对象。现有的VLG方法侧重于粗粒度的对象级定位,而传统的机器人抓取方法主要依赖于几何线索,缺乏语言指导,这限制了它们在语言驱动操作场景中的适用性。为了解决这些限制,我们提出了RealVLG框架,该框架集成了RealVLG-11B数据集和RealVLG-R1模型,以统一真实世界的视觉-语言定位和抓取任务。RealVLG-11B数据集提供了多粒度注释,包括边界框、分割掩码、抓取姿势、接触点和人工验证的细粒度语言描述,涵盖约165,000张图像、超过800个对象实例、130万个分割、检测和语言注释,以及大约110亿个抓取示例。基于此数据集,RealVLG-R1采用在预训练的大规模视觉-语言模型上进行强化微调,以统一的方式预测给定自然语言指令的边界框、分割掩码、抓取姿势和接触点。实验结果表明,RealVLG支持真实世界未见环境中的零样本感知和操作,建立了一个统一的语义-视觉多模态基准,为语言驱动的机器人感知和抓取策略学习提供了一个全面的数据和评估平台。所有数据和代码均可在https://github.com/lif314/RealVLG-R1公开获取。
🔬 方法详解
问题定义:论文旨在解决机器人操作中,现有视觉-语言定位方法缺乏细粒度定位和语言指导的问题。传统机器人抓取方法主要依赖几何信息,难以理解和执行基于自然语言指令的操作。现有VLG方法侧重于对象级别的粗粒度定位,无法满足机器人操作对精确抓取姿态和接触点的需求。
核心思路:论文的核心思路是构建一个大规模、多粒度的真实世界视觉-语言定位数据集,并在此基础上训练一个能够理解自然语言指令并预测精确抓取姿态的模型。通过强化微调预训练的视觉-语言模型,使模型能够更好地适应机器人操作任务,实现零样本感知和操作。
技术框架:RealVLG框架包含两个主要组成部分:RealVLG-11B数据集和RealVLG-R1模型。RealVLG-11B数据集提供多粒度标注,包括边界框、分割掩码、抓取姿势、接触点和细粒度语言描述。RealVLG-R1模型基于预训练的大规模视觉-语言模型,通过强化微调,实现对自然语言指令的理解和对目标对象的多粒度定位和抓取姿态预测。整体流程为:输入自然语言指令和图像,RealVLG-R1模型预测边界框、分割掩码、抓取姿势和接触点,用于机器人抓取操作。
关键创新:该论文的关键创新在于构建了RealVLG-11B数据集,该数据集是目前最大的真实世界视觉-语言定位数据集之一,提供了多粒度的标注信息,包括抓取姿势和接触点,这使得模型能够学习到更精确的抓取策略。此外,通过强化微调预训练的视觉-语言模型,提高了模型在机器人操作任务中的性能。与现有方法的本质区别在于,RealVLG框架能够实现语言驱动的细粒度定位和抓取,而现有方法主要依赖几何信息或只能进行粗粒度的对象定位。
关键设计:RealVLG-R1模型采用强化学习进行微调,奖励函数的设计至关重要,需要综合考虑抓取的成功率、精度和效率。具体来说,奖励函数可以包括:(1) 抓取成功奖励:如果机器人成功抓取目标对象,则给予正向奖励;(2) 抓取精度奖励:根据预测的抓取姿势与真实抓取姿势之间的差异,给予相应的奖励或惩罚;(3) 抓取效率奖励:根据抓取操作所花费的时间或步数,给予相应的奖励或惩罚。此外,网络结构的选择也很重要,需要选择能够有效融合视觉和语言信息的模型,例如Transformer结构。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RealVLG框架在真实世界未见环境中表现出良好的零样本感知和操作能力。通过在RealVLG-11B数据集上进行训练和评估,RealVLG-R1模型能够准确预测目标对象的边界框、分割掩码、抓取姿势和接触点,并成功完成抓取任务。具体性能数据未在摘要中给出,但强调了其在零样本环境下的有效性,证明了该框架的泛化能力。
🎯 应用场景
该研究成果可应用于智能制造、家庭服务机器人、仓储物流等领域。例如,在智能制造中,机器人可以根据自然语言指令完成零件的抓取和组装;在家庭服务中,机器人可以根据用户的语音指令完成物品的整理和放置;在仓储物流中,机器人可以根据订单信息完成货物的拣选和搬运。该研究为实现更智能、更灵活的机器人操作提供了技术支撑。
📄 摘要(原文)
Visual-language grounding aims to establish semantic correspondences between natural language and visual entities, enabling models to accurately identify and localize target objects based on textual instructions. Existing VLG approaches focus on coarse-grained, object-level localization, while traditional robotic grasping methods rely predominantly on geometric cues and lack language guidance, which limits their applicability in language-driven manipulation scenarios. To address these limitations, we propose the RealVLG framework, which integrates the RealVLG-11B dataset and the RealVLG-R1 model to unify real-world visual-language grounding and grasping tasks. RealVLG-11B dataset provides multi-granularity annotations including bounding boxes, segmentation masks, grasp poses, contact points, and human-verified fine-grained language descriptions, covering approximately 165,000 images, over 800 object instances, 1.3 million segmentation, detection, and language annotations, and roughly 11 billion grasping examples. Building on this dataset, RealVLG-R1 employs Reinforcement Fine-tuning on pretrained large-scale vision-language models to predict bounding boxes, segmentation masks, grasp poses, and contact points in a unified manner given natural language instructions. Experimental results demonstrate that RealVLG supports zero-shot perception and manipulation in real-world unseen environments, establishing a unified semantic-visual multimodal benchmark that provides a comprehensive data and evaluation platform for language-driven robotic perception and grasping policy learning. All data and code are publicly available at https://github.com/lif314/RealVLG-R1.