Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

📄 arXiv: 2602.23898v1 📥 PDF

作者: Qihua Dong, Kuo Yang, Lin Ju, Handong Zhao, Yitian Zhang, Yizhou Wang, Huimin Zeng, Jianglin Lu, Yun Fu

分类: cs.CV, cs.AI, cs.CL

发布日期: 2026-02-27

备注: ICLR 2026


💡 一句话要点

提出Ref-Adv基准,揭示MLLM在指代表达理解中视觉推理的局限性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指代表达理解 多模态大语言模型 视觉推理 基准数据集 对抗样本

📋 核心要点

  1. 现有指代表达理解基准测试存在表达式简单、干扰项少、描述冗余等问题,导致模型容易通过捷径解决问题。
  2. 论文提出Ref-Adv基准,通过设计复杂的表达式和高难度干扰项,抑制模型利用捷径,考察其真正的视觉推理能力。
  3. 实验表明,现有MLLM在Ref-Adv上性能显著下降,揭示了模型对捷径的依赖以及视觉推理能力的不足。

📝 摘要(中文)

指代表达理解(REC)将语言与区域级别的视觉感知联系起来。尽管多模态LLM在标准基准(RefCOCO、RefCOCO+、RefCOCOg)上取得了快速进展,但这些基准在视觉推理和基础方面仍然存在不足:(i)许多表达式非常短,几乎没有推理需求;(ii)图像通常包含很少的干扰项,使得目标很容易找到;(iii)冗余的描述符使得模型可以通过捷径解决方案绕过真正的文本理解和视觉推理。我们引入了Ref-Adv,这是一个现代REC基准,通过将语言上重要的表达式与唯一识别目标所需的信息配对来抑制捷径。该数据集包含真实图像上的指代表达式,这些表达式经过精心设计,包含难以区分的干扰项,并标注了包括否定在内的推理方面。我们进行了全面的消融实验(词序扰动和描述符删除充分性)表明,解决Ref-Adv需要超越简单线索的推理。我们在Ref-Adv上评估了一系列当代多模态LLM。尽管在RefCOCO、RefCOCO+和RefCOCOg上取得了优异的成绩,但模型在Ref-Adv上的表现明显下降,揭示了对捷径的依赖以及视觉推理和基础方面的差距。我们提供了深入的失败分析,并希望Ref-Adv能够指导未来在MLLM中进行视觉推理和基础方面的工作。

🔬 方法详解

问题定义:现有指代表达理解(REC)基准,如RefCOCO系列,存在表达式过于简单、图像干扰项不足、描述信息冗余等问题。这些问题导致模型无需进行深入的视觉推理和文本理解,仅通过简单的线索或捷径即可完成任务,无法真实反映模型的视觉推理能力。现有方法难以有效评估多模态大语言模型(MLLM)在复杂场景下的视觉推理和指代能力。

核心思路:论文的核心思路是构建一个更具挑战性的REC基准,即Ref-Adv。该基准通过精心设计,使得模型必须进行更深入的视觉推理和文本理解才能正确识别目标对象。具体而言,Ref-Adv采用语言上更复杂的表达式,并引入难以区分的干扰项,从而迫使模型关注关键信息,避免使用捷径。

技术框架:Ref-Adv数据集的构建流程主要包括以下几个步骤:首先,收集包含丰富视觉信息的真实图像。然后,人工标注指代表达式,这些表达式需要包含足够的语言复杂性,例如否定、比较等。同时,在图像中选择难以区分的干扰项,使得目标对象与干扰项在视觉上相似。最后,对数据集进行质量控制,确保标注的准确性和一致性。

关键创新:Ref-Adv的关键创新在于其对“对抗性”样本的设计理念。与传统REC基准不同,Ref-Adv并非旨在模拟真实场景,而是刻意构造具有挑战性的样本,以暴露现有MLLM的弱点。通过这种方式,Ref-Adv能够更有效地评估模型的视觉推理和指代能力,并为未来的研究提供指导。

关键设计:Ref-Adv数据集的关键设计包括:1) 表达式的语言复杂性:使用包含否定、比较等复杂结构的表达式,增加文本理解的难度。2) 干扰项的视觉相似性:选择与目标对象在颜色、形状、纹理等方面相似的干扰项,增加视觉推理的难度。3) 描述符删除充分性:确保每个描述符都是唯一识别目标所必需的,避免冗余信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在Ref-Adv基准上,现有MLLM的性能相较于RefCOCO系列基准出现了显著下降,表明这些模型在视觉推理和指代理解方面存在明显的局限性。例如,在RefCOCO上表现优异的模型,在Ref-Adv上的准确率下降了超过20%。消融实验表明,模型在Ref-Adv上无法简单地依赖词序或个别描述符来解决问题,必须进行更深入的视觉推理。

🎯 应用场景

Ref-Adv基准的提出,有助于推动多模态大语言模型在视觉推理和指代表达理解方面的研究。该基准可用于评估和比较不同模型的性能,并指导模型的设计和优化。潜在应用领域包括智能机器人、图像搜索、视觉问答等,能够提升这些应用在复杂环境下的感知和理解能力。

📄 摘要(原文)

Referring Expression Comprehension (REC) links language to region level visual perception. Standard benchmarks (RefCOCO, RefCOCO+, RefCOCOg) have progressed rapidly with multimodal LLMs but remain weak tests of visual reasoning and grounding: (i) many expressions are very short, leaving little reasoning demand; (ii) images often contain few distractors, making the target easy to find; and (iii) redundant descriptors enable shortcut solutions that bypass genuine text understanding and visual reasoning. We introduce Ref-Adv, a modern REC benchmark that suppresses shortcuts by pairing linguistically nontrivial expressions with only the information necessary to uniquely identify the target. The dataset contains referring expressions on real images, curated with hard distractors and annotated with reasoning facets including negation. We conduct comprehensive ablations (word order perturbations and descriptor deletion sufficiency) to show that solving Ref-Adv requires reasoning beyond simple cues, and we evaluate a broad suite of contemporary multimodal LLMs on Ref-Adv. Despite strong results on RefCOCO, RefCOCO+, and RefCOCOg, models drop markedly on Ref-Adv, revealing reliance on shortcuts and gaps in visual reasoning and grounding. We provide an in depth failure analysis and aim for Ref-Adv to guide future work on visual reasoning and grounding in MLLMs.