GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation

📄 arXiv: 2512.17495v1 📥 PDF

作者: Rang Li, Lei Li, Shuhuai Ren, Hao Tian, Shuhao Gu, Shicheng Li, Zihao Yue, Yudong Wang, Wenhan Ma, Zhe Yang, Jingyuan Ma, Zhifang Sui, Fuli Luo

分类: cs.CV

发布日期: 2025-12-19


💡 一句话要点

GroundingME:通过多维度评估揭示多模态大语言模型在视觉定位方面的差距

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉定位 多模态大语言模型 基准测试 视觉理解 模型评估

📋 核心要点

  1. 现有视觉定位基准测试无法捕捉真实世界复杂场景,MLLM在处理模糊引用和识别不可定位查询时存在不足。
  2. GroundingME基准测试通过区分性、空间性、有限性和拒绝性四个维度系统性地评估MLLM的视觉定位能力。
  3. 实验表明,现有MLLM在GroundingME上表现不佳,尤其是在拒绝任务上,通过数据混合训练可显著提升拒绝准确率。

📝 摘要(中文)

视觉定位,即从自然语言描述中定位物体,是连接语言和视觉理解的关键桥梁。尽管多模态大语言模型(MLLMs)在现有基准测试中取得了令人印象深刻的分数,但一个根本问题仍然存在:MLLMs是否真正能像人类一样精细地将语言定位到视觉中,还是仅仅在简化的数据集上进行模式匹配?现有的基准测试无法捕捉到真实世界的复杂性,在真实世界中,人类可以轻松地处理模糊的引用,并识别出何时无法进行定位。为了严格评估MLLMs的真实能力,我们引入了GroundingME,这是一个基准测试,它在四个关键维度上系统地挑战模型:(1)区分性,区分高度相似的物体,(2)空间性,理解复杂的关系描述,(3)有限性,处理遮挡或微小物体,(4)拒绝性,识别不可定位的查询。通过结合自动生成和人工验证的精心策划,我们创建了1,005个具有挑战性的例子,反映了真实世界的复杂性。对25个最先进的MLLM的评估揭示了一个深刻的能力差距:最好的模型仅达到45.1%的准确率,而大多数模型在拒绝任务上的得分为0%,本能地幻觉出物体,而不是承认它们的不存在,这引发了对部署的关键安全问题。我们探索了两种改进策略:(1)测试时缩放通过思考轨迹选择最佳响应,从而将复杂定位提高高达2.9%,(2)数据混合训练教会模型识别不可定位的查询,将拒绝准确率从0%提高到27.9%。因此,GroundingME既可以作为揭示MLLM当前局限性的诊断工具,也可以作为实现人类水平视觉定位的路线图。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLM)在视觉定位任务中存在的真实世界泛化能力不足的问题。现有基准测试往往过于简单,无法充分评估模型在处理复杂关系、遮挡、微小物体以及识别不可定位查询时的能力,导致模型在实际应用中表现不佳。

核心思路:论文的核心思路是构建一个更具挑战性的视觉定位基准测试,即GroundingME,该基准测试通过精心设计的四个维度(区分性、空间性、有限性和拒绝性)来系统性地评估MLLM的视觉定位能力。通过暴露模型在这些维度上的弱点,从而推动模型在真实世界场景下的视觉定位能力提升。

技术框架:GroundingME基准测试的构建流程主要包括以下几个阶段:1) 确定评估维度:定义区分性、空间性、有限性和拒绝性四个关键维度。2) 数据生成:结合自动生成和人工验证的方式,创建包含1005个具有挑战性的视觉定位示例。3) 模型评估:使用GroundingME评估25个最先进的MLLM。4) 改进策略探索:探索测试时缩放和数据混合训练两种策略来提升模型性能。

关键创新:GroundingME的关键创新在于其多维度的评估体系,它不仅关注模型在简单场景下的定位准确率,更关注模型在处理复杂关系、遮挡、微小物体以及识别不可定位查询时的能力。这种多维度的评估方式能够更全面、更深入地揭示MLLM在视觉定位方面的差距。

关键设计:GroundingME在数据生成方面,采用了结合自动生成和人工验证的方式,以确保数据的质量和多样性。在拒绝性任务的设计上,特别关注了模型是否能够正确识别不可定位的查询,避免模型产生幻觉。此外,论文还探索了两种改进策略:测试时缩放,通过思考轨迹选择最佳响应;数据混合训练,通过加入包含不可定位查询的数据来提升模型的拒绝准确率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有最先进的MLLM在GroundingME上的平均准确率较低,尤其是在拒绝性任务上,大部分模型得分为0%。通过测试时缩放策略,复杂定位能力提升高达2.9%。通过数据混合训练,拒绝准确率从0%提升到27.9%,表明该方法能够有效提升模型识别不可定位查询的能力。

🎯 应用场景

该研究成果可应用于机器人导航、智能监控、图像搜索等领域。通过提高MLLM在复杂场景下的视觉定位能力,可以使机器人更好地理解人类指令,实现更精准的物体识别和跟踪,从而提升人机交互的效率和安全性。此外,该基准测试也为未来MLLM的研究方向提供了指导。

📄 摘要(原文)

Visual grounding, localizing objects from natural language descriptions, represents a critical bridge between language and vision understanding. While multimodal large language models (MLLMs) achieve impressive scores on existing benchmarks, a fundamental question remains: can MLLMs truly ground language in vision with human-like sophistication, or are they merely pattern-matching on simplified datasets? Current benchmarks fail to capture real-world complexity where humans effortlessly navigate ambiguous references and recognize when grounding is impossible. To rigorously assess MLLMs' true capabilities, we introduce GroundingME, a benchmark that systematically challenges models across four critical dimensions: (1) Discriminative, distinguishing highly similar objects, (2) Spatial, understanding complex relational descriptions, (3) Limited, handling occlusions or tiny objects, and (4) Rejection, recognizing ungroundable queries. Through careful curation combining automated generation with human verification, we create 1,005 challenging examples mirroring real-world complexity. Evaluating 25 state-of-the-art MLLMs reveals a profound capability gap: the best model achieves only 45.1% accuracy, while most score 0% on rejection tasks, reflexively hallucinating objects rather than acknowledging their absence, raising critical safety concerns for deployment. We explore two strategies for improvements: (1) test-time scaling selects optimal response by thinking trajectory to improve complex grounding by up to 2.9%, and (2) data-mixture training teaches models to recognize ungroundable queries, boosting rejection accuracy from 0% to 27.9%. GroundingME thus serves as both a diagnostic tool revealing current limitations in MLLMs and a roadmap toward human-level visual grounding.