Point-It-Out: Benchmarking Embodied Reasoning for Vision Language Models in Multi-Stage Visual Grounding

📄 arXiv: 2509.25794v1 📥 PDF

作者: Haotian Xue, Yunhao Ge, Yu Zeng, Zhaoshuo Li, Ming-Yu Liu, Yongxin Chen, Jiaojiao Fan

分类: cs.CV, cs.AI

发布日期: 2025-09-30


💡 一句话要点

提出Point-It-Out基准,评估视觉语言模型在多阶段视觉定位中的具身推理能力

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 具身推理 视觉定位 基准测试 多阶段评估

📋 核心要点

  1. 现有具身推理基准主要依赖图像标注的多选题,无法充分评估视觉语言模型在精确视觉定位方面的能力。
  2. Point-It-Out (PIO)基准通过分层评估协议,系统评估视觉语言模型在指称对象定位、任务驱动指向和视觉轨迹预测方面的能力。
  3. 实验结果表明,通用模型在精确视觉定位方面表现不如特定开源模型,且模型在不同阶段表现差异显著,揭示了现有模型的局限性。

📝 摘要(中文)

视觉语言模型(VLMs)在各种任务中展现了令人印象深刻的世界知识,使其成为具身推理应用的有希望的候选者。然而,现有的基准主要通过基于图像注释的多项选择题来评估VLMs的具身推理能力,例如,选择哪个轨迹更好地描述了图像中的事件。本文提出了Point-It-Out (PIO)基准,这是一个新的基准,旨在通过精确的视觉定位系统地评估VLMs的具身推理能力。我们提出了一个跨越三个阶段的分层评估协议(S1: 指称对象定位,S2: 任务驱动的指向,S3: 视觉轨迹预测),数据收集自具身智能的关键领域,包括室内、厨房、驾驶和机器人操作场景。对十多个最先进的VLMs进行的大量实验揭示了一些有趣的发现。例如,像GPT-4o这样强大的通用模型,虽然在许多基准测试(例如,语言、感知和推理)中表现出色,但在精确的视觉定位方面,其性能不如一些开源模型;像MoLMO这样的模型在S1和S2中表现良好,但在S3中表现不佳,S3需要将定位与视觉轨迹规划相结合。

🔬 方法详解

问题定义:现有具身推理基准测试主要依赖于图像标注,通过多项选择题来评估视觉语言模型(VLMs)的推理能力。这种方式无法精确评估模型在真实场景中进行视觉定位的能力,尤其是在需要多步骤推理和规划的复杂任务中。现有方法的痛点在于缺乏一个能够系统性、精细化评估VLMs视觉定位能力的基准。

核心思路:Point-It-Out (PIO)基准的核心思路是通过构建一个多阶段的视觉定位任务,来系统性地评估VLMs的具身推理能力。该基准模拟了真实世界中需要视觉定位和推理的场景,并设计了分层评估协议,从而能够更全面地了解模型在不同推理阶段的表现。

技术框架:PIO基准的评估协议包含三个阶段:S1(指称对象定位):模型需要根据给定的语言描述,在图像中定位目标对象;S2(任务驱动的指向):模型需要根据任务指令,指向与任务相关的对象或区域;S3(视觉轨迹预测):模型需要预测完成任务所需的视觉轨迹。数据收集自室内、厨房、驾驶和机器人操作等多个具身智能的关键领域。通过这三个阶段,可以逐步评估模型在视觉感知、语言理解和推理规划方面的能力。

关键创新:PIO基准的关键创新在于其多阶段的分层评估协议,能够更细粒度地评估VLMs的具身推理能力。与以往的基准测试相比,PIO不仅关注模型的最终结果,还关注模型在不同推理阶段的表现,从而能够更深入地了解模型的优势和不足。此外,PIO基准的数据集涵盖了多个具身智能的关键领域,更贴近实际应用场景。

关键设计:PIO基准的关键设计包括:1) 精心设计的语言描述和任务指令,确保能够清晰地表达任务目标;2) 多样化的场景和对象,以增加任务的复杂性和挑战性;3) 统一的评估指标,用于衡量模型在不同阶段的性能。具体的技术细节包括图像的分辨率、语言描述的长度、以及评估指标的计算方法等。此外,数据集的构建也需要考虑数据的平衡性,以避免模型出现偏差。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GPT-4o等通用模型在PIO基准上的表现不如一些开源模型,例如MoLMO在S1和S2阶段表现良好,但在S3阶段表现不佳,这表明现有模型在视觉定位和轨迹规划方面仍存在局限性。该研究揭示了现有VLMs在具身推理方面的不足,并为未来的研究方向提供了指导。

🎯 应用场景

该研究成果可应用于机器人导航、智能家居、自动驾驶等领域。通过提升视觉语言模型在视觉定位和具身推理方面的能力,可以使机器人更好地理解人类指令,并在复杂环境中完成任务。例如,在智能家居场景中,机器人可以根据用户的语音指令,准确地找到目标物品并执行相应的操作。在自动驾驶领域,模型可以根据交通规则和环境信息,预测车辆的行驶轨迹,从而提高驾驶安全性。

📄 摘要(原文)

Vision-Language Models (VLMs) have demonstrated impressive world knowledge across a wide range of tasks, making them promising candidates for embodied reasoning applications. However, existing benchmarks primarily evaluate the embodied reasoning ability of VLMs through multiple-choice questions based on image annotations -- for example, selecting which trajectory better describes an event in the image. In this work, we introduce the Point-It-Out (PIO) benchmark, a novel benchmark designed to systematically assess the embodied reasoning abilities of VLMs through precise visual grounding. We propose a hierarchical evaluation protocol spanning three stages (S1: referred-object localization, S2: task-driven pointing, and S3: visual trace prediction), with data collected from critical domains for embodied intelligence, including indoor, kitchen, driving, and robotic manipulation scenarios. Extensive experiments with over ten state-of-the-art VLMs reveal several interesting findings. For example, strong general-purpose models such as GPT-4o, while excelling on many benchmarks (e.g., language, perception, and reasoning), underperform compared to some open-source models in precise visual grounding; models such as MoLMO perform well in S1 and S2 but struggle in S3, where requires grounding combined with visual trace planning.