Point-It-Out: Benchmarking Embodied Reasoning for Vision Language Models in Multi-Stage Visual Grounding

作者: Haotian Xue, Yunhao Ge, Yu Zeng, Zhaoshuo Li, Ming-Yu Liu, Yongxin Chen, Jiaojiao Fan

分类: cs.CV, cs.AI

发布日期: 2025-09-30

💡 一句话要点

提出Point-It-Out基准，评估视觉语言模型在多阶段视觉定位中的具身推理能力

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 具身推理 视觉定位 基准测试 多阶段评估

📋 核心要点

现有具身推理基准主要依赖图像标注的多选题，无法充分评估视觉语言模型在精确视觉定位方面的能力。
Point-It-Out (PIO)基准通过分层评估协议，系统评估视觉语言模型在指称对象定位、任务驱动指向和视觉轨迹预测方面的能力。
实验结果表明，通用模型在精确视觉定位方面表现不如特定开源模型，且模型在不同阶段表现差异显著，揭示了现有模型的局限性。

📝 摘要（中文）

视觉语言模型(VLMs)在各种任务中展现了令人印象深刻的世界知识，使其成为具身推理应用的有希望的候选者。然而，现有的基准主要通过基于图像注释的多项选择题来评估VLMs的具身推理能力，例如，选择哪个轨迹更好地描述了图像中的事件。本文提出了Point-It-Out (PIO)基准，这是一个新的基准，旨在通过精确的视觉定位系统地评估VLMs的具身推理能力。我们提出了一个跨越三个阶段的分层评估协议(S1: 指称对象定位，S2: 任务驱动的指向，S3: 视觉轨迹预测)，数据收集自具身智能的关键领域，包括室内、厨房、驾驶和机器人操作场景。对十多个最先进的VLMs进行的大量实验揭示了一些有趣的发现。例如，像GPT-4o这样强大的通用模型，虽然在许多基准测试(例如，语言、感知和推理)中表现出色，但在精确的视觉定位方面，其性能不如一些开源模型；像MoLMO这样的模型在S1和S2中表现良好，但在S3中表现不佳，S3需要将定位与视觉轨迹规划相结合。

🔬 方法详解

问题定义：现有具身推理基准测试主要依赖于图像标注，通过多项选择题来评估视觉语言模型（VLMs）的推理能力。这种方式无法精确评估模型在真实场景中进行视觉定位的能力，尤其是在需要多步骤推理和规划的复杂任务中。现有方法的痛点在于缺乏一个能够系统性、精细化评估VLMs视觉定位能力的基准。

核心思路：Point-It-Out (PIO)基准的核心思路是通过构建一个多阶段的视觉定位任务，来系统性地评估VLMs的具身推理能力。该基准模拟了真实世界中需要视觉定位和推理的场景，并设计了分层评估协议，从而能够更全面地了解模型在不同推理阶段的表现。

技术框架：PIO基准的评估协议包含三个阶段：S1（指称对象定位）：模型需要根据给定的语言描述，在图像中定位目标对象；S2（任务驱动的指向）：模型需要根据任务指令，指向与任务相关的对象或区域；S3（视觉轨迹预测）：模型需要预测完成任务所需的视觉轨迹。数据收集自室内、厨房、驾驶和机器人操作等多个具身智能的关键领域。通过这三个阶段，可以逐步评估模型在视觉感知、语言理解和推理规划方面的能力。

关键创新：PIO基准的关键创新在于其多阶段的分层评估协议，能够更细粒度地评估VLMs的具身推理能力。与以往的基准测试相比，PIO不仅关注模型的最终结果，还关注模型在不同推理阶段的表现，从而能够更深入地了解模型的优势和不足。此外，PIO基准的数据集涵盖了多个具身智能的关键领域，更贴近实际应用场景。

关键设计：PIO基准的关键设计包括：1) 精心设计的语言描述和任务指令，确保能够清晰地表达任务目标；2) 多样化的场景和对象，以增加任务的复杂性和挑战性；3) 统一的评估指标，用于衡量模型在不同阶段的性能。具体的技术细节包括图像的分辨率、语言描述的长度、以及评估指标的计算方法等。此外，数据集的构建也需要考虑数据的平衡性，以避免模型出现偏差。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GPT-4o等通用模型在PIO基准上的表现不如一些开源模型，例如MoLMO在S1和S2阶段表现良好，但在S3阶段表现不佳，这表明现有模型在视觉定位和轨迹规划方面仍存在局限性。该研究揭示了现有VLMs在具身推理方面的不足，并为未来的研究方向提供了指导。

🎯 应用场景

该研究成果可应用于机器人导航、智能家居、自动驾驶等领域。通过提升视觉语言模型在视觉定位和具身推理方面的能力，可以使机器人更好地理解人类指令，并在复杂环境中完成任务。例如，在智能家居场景中，机器人可以根据用户的语音指令，准确地找到目标物品并执行相应的操作。在自动驾驶领域，模型可以根据交通规则和环境信息，预测车辆的行驶轨迹，从而提高驾驶安全性。

📄 摘要（原文）

Vision-Language Models (VLMs) have demonstrated impressive world knowledge across a wide range of tasks, making them promising candidates for embodied reasoning applications. However, existing benchmarks primarily evaluate the embodied reasoning ability of VLMs through multiple-choice questions based on image annotations -- for example, selecting which trajectory better describes an event in the image. In this work, we introduce the Point-It-Out (PIO) benchmark, a novel benchmark designed to systematically assess the embodied reasoning abilities of VLMs through precise visual grounding. We propose a hierarchical evaluation protocol spanning three stages (S1: referred-object localization, S2: task-driven pointing, and S3: visual trace prediction), with data collected from critical domains for embodied intelligence, including indoor, kitchen, driving, and robotic manipulation scenarios. Extensive experiments with over ten state-of-the-art VLMs reveal several interesting findings. For example, strong general-purpose models such as GPT-4o, while excelling on many benchmarks (e.g., language, perception, and reasoning), underperform compared to some open-source models in precise visual grounding; models such as MoLMO perform well in S1 and S2 but struggle in S3, where requires grounding combined with visual trace planning.

Point-It-Out: Benchmarking Embodied Reasoning for Vision Language Models in Multi-Stage Visual Grounding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理