BOP-ASK: Object-Interaction Reasoning for Vision-Language Models
作者: Vineet Bhat, Sungsu Kim, Valts Blukis, Greg Heinrich, Prashanth Krishnamurthy, Ramesh Karri, Stan Birchfield, Farshad Khorrami, Jonathan Tremblay
分类: cs.CV, cs.RO
发布日期: 2025-11-20 (更新: 2025-12-04)
💡 一句话要点
BOP-ASK:用于视觉-语言模型的目标交互推理数据集与基准
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知 (Perception & SLAM)
关键词: 视觉-语言模型 对象交互推理 数据集 空间推理 机器人操作
📋 核心要点
- 现有视觉-语言模型在空间推理上表现良好,但缺乏对对象交互的细粒度理解,限制了其在实际场景中的应用。
- BOP-ASK数据集通过利用6D对象姿态信息,生成包含抓取姿态、路径规划等细粒度标注的大规模问答对,用于训练和评估模型。
- 实验表明,在BOP-ASK上训练的模型在对象姿态估计、轨迹规划和空间推理方面表现出优于基线模型的性能。
📝 摘要(中文)
视觉-语言模型(VLM)在空间推理基准测试中取得了显著成果,但这些评估掩盖了其在理解对象交互方面的关键弱点。现有基准测试侧重于高级关系(如“左侧”、“后方”),忽略了实际应用所需的精细空间理解,包括精确的3D定位、对象间的物理兼容性、对象可供性以及多步空间规划。本文提出了BOP-ASK,这是一个用于对象交互推理的大规模数据集,可用于训练和基准测试。数据生成流程利用了对象姿态估计基准(BOP)数据集中的6D对象姿态,从中提取精细的标注,如抓取姿态、参考对象姿态、路径规划轨迹、相对空间和深度关系以及对象间关系。BOP-ASK包含超过15万张图像和3300万个问答对,涵盖六个任务(其中四个是新的),为训练和评估VLM提供了丰富的资源。我们评估了专有和开源的VLM,并对BOP-ASK-core(一个贡献的测试基准)进行了人工评估。我们还发布了BOP-ASK-lab,这是一个分布外基准,其图像并非来自BOP,用于测试泛化能力。实验表明,在BOP-ASK上训练的模型优于基线模型,并展现出精确的对象和抓取姿态估计、轨迹规划以及在杂乱环境中进行精细的以对象为中心的空间推理等新兴能力。我们将公开发布数据集和数据集生成流程。
🔬 方法详解
问题定义:现有视觉-语言模型在空间推理任务中,主要关注高级的空间关系,例如“左边”、“后面”等,缺乏对物体之间细粒度交互关系的理解。这导致模型在需要精确3D定位、物理兼容性判断、物体可供性分析以及多步空间规划等实际应用中表现不佳。现有数据集无法充分评估和提升模型在这些方面的能力。
核心思路:论文的核心思路是构建一个大规模、细粒度的对象交互推理数据集BOP-ASK,该数据集基于现有的对象姿态估计基准BOP数据集,利用其精确的6D对象姿态信息,生成包含抓取姿态、参考对象姿态、路径规划轨迹、相对空间和深度关系以及对象间关系等多种类型的标注。通过在该数据集上训练和评估视觉-语言模型,可以提升模型对对象交互的理解能力。
技术框架:BOP-ASK的数据集生成流程主要包括以下几个阶段:1) 利用BOP数据集中的6D对象姿态信息;2) 基于这些姿态信息,生成各种类型的标注,包括抓取姿态、参考对象姿态、路径规划轨迹、相对空间和深度关系以及对象间关系;3) 将图像和对应的标注转化为问答对的形式,构建最终的数据集。此外,论文还构建了BOP-ASK-core和BOP-ASK-lab两个测试基准,分别用于评估模型在同分布和分布外数据上的泛化能力。
关键创新:BOP-ASK的关键创新在于其细粒度的对象交互标注。与现有数据集只关注高级空间关系不同,BOP-ASK提供了包括抓取姿态、路径规划等在内的多种类型的细粒度标注,使得模型能够学习到更丰富的对象交互知识。此外,BOP-ASK还构建了分布外测试基准BOP-ASK-lab,用于评估模型的泛化能力。
关键设计:BOP-ASK数据集包含超过15万张图像和3300万个问答对,涵盖六个任务。数据集的标注生成过程依赖于BOP数据集提供的精确6D对象姿态信息。BOP-ASK-core是一个从BOP数据集中采样的测试集,而BOP-ASK-lab则包含来自其他来源的图像,用于评估模型的泛化能力。论文没有详细说明具体的损失函数或网络结构,而是侧重于数据集的构建和评估。
📊 实验亮点
实验结果表明,在BOP-ASK数据集上训练的视觉-语言模型在对象姿态估计、轨迹规划和空间推理等任务上均优于基线模型。模型展现出精确的对象和抓取姿态估计能力,以及在杂乱环境中进行细粒度的以对象为中心的空间推理能力。BOP-ASK-lab上的评估也验证了模型具有一定的泛化能力。
🎯 应用场景
该研究成果可广泛应用于机器人操作、自动驾驶、增强现实等领域。例如,机器人可以利用该模型理解物体之间的交互关系,从而更好地完成抓取、装配等任务。自动驾驶系统可以利用该模型理解车辆与行人、车辆与车辆之间的关系,从而提高行驶安全性。增强现实应用可以利用该模型实现更自然的物体交互。
📄 摘要(原文)
Vision Language Models (VLMs) have achieved impressive performance on spatial reasoning benchmarks, yet these evaluations mask critical weaknesses in understanding object interactions. Current benchmarks test high level relationships ('left of,' 'behind', etc.) but ignore fine-grained spatial understanding needed for real world applications: precise 3D localization, physical compatibility between objects, object affordances and multi step spatial planning. In this work, we present BOP-ASK, a novel large scale dataset for object interaction reasoning for both training and benchmarking. Our data generation pipeline leverages 6D object poses from the Benchmark for Object Pose Estimation (BOP) datasets from which we derive fine grained annotations such as grasp poses, referred object poses, path planning trajectories, relative spatial and depth relationships, and object-to-object relationships. BOP-ASK comprises over 150k images and 33M question answer pairs spanning six tasks (four novel), providing a rich resource for training and evaluating VLMs. We evaluate proprietary and open sourced VLMs, and conduct human evaluations on BOP-ASK-core, a contributed test benchmark. We also release BOP-ASK-lab, an out-of-distribution benchmark with images not sourced from BOP, enabling testing of generalization. Our experiments demonstrate that models trained on BOP-ASK outperform baselines and exhibit emergent capabilities such as precise object and grasp pose estimation, trajectory planning, and fine-grained object-centric spatial reasoning in cluttered environments. We will publicly release our datasets and dataset generation pipeline.