Knowing When Not to Answer: Evaluating Abstention in Multimodal Reasoning Systems

📄 arXiv: 2604.14799v1 📥 PDF

作者: Nishanth Madhusudhan, Vikas Yadav, Alexandre Lacoste

分类: cs.CL, cs.CV

发布日期: 2026-04-16

备注: 10 pages and 4 figures (excluding appendix)


💡 一句话要点

提出MM-AQA基准,评估多模态推理系统中有效拒绝回答的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态推理 拒绝回答 视觉-语言模型 多智能体系统 基准测试 证据充分性 视觉模态依赖

📋 核心要点

  1. 现有VLM和MAS评估假设所有问题均可回答,忽略了模型在证据不足时拒绝回答的重要性。
  2. 论文提出MM-AQA基准,通过转换可回答实例来构建不可回答实例,从而评估模型拒绝回答能力。
  3. 实验表明,现有VLM很少拒绝回答,MAS虽然有所改善但存在准确率-拒绝回答的权衡。

📝 摘要(中文)

有效的拒绝回答(EA),即识别证据不足并避免回答,对于可靠的多模态系统至关重要。然而,现有的视觉-语言模型(VLM)和多智能体系统(MAS)的评估范式假设所有问题都是可回答的,迫使模型总是给出答案。虽然拒绝回答已经在纯文本环境中进行了研究,但在多模态环境中仍然缺乏探索;当前的基准要么忽略了不可回答性,要么依赖于粗略的方法,错过了真实的失败模式。我们引入了MM-AQA,一个通过沿视觉模态依赖性和证据充分性两个轴转换可回答实例来构建不可回答实例的基准。我们评估了三个前沿的VLM(包括闭源和开源模型)和两个MAS架构,共计2079个样本,发现:(1)在标准提示下,VLM很少拒绝回答;即使是简单的置信度基线也优于此设置,(2)MAS提高了拒绝回答能力,但引入了准确率-拒绝回答的权衡,(3)顺序设计与迭代变体相匹配或超过迭代变体,表明瓶颈是错误校准而不是推理深度,以及(4)模型在图像或文本证据缺失时拒绝回答,但试图协调降级或矛盾的证据。有效的多模态拒绝回答需要拒绝回答感知的训练,而不是更好的提示或更多的智能体。

🔬 方法详解

问题定义:论文旨在解决多模态推理系统中有效拒绝回答的问题。现有方法,如VLM和MAS,在评估时通常假设所有问题都是可回答的,这导致模型在证据不足或存在矛盾信息时仍然尝试给出答案,从而降低了系统的可靠性。现有的基准测试要么忽略了不可回答性,要么使用了粗糙的方法,无法捕捉到真实场景中的失败模式。

核心思路:论文的核心思路是构建一个更真实的评估基准,即MM-AQA,该基准包含可回答和不可回答两种类型的问题。通过系统地转换可回答的问题,使其在视觉模态依赖性和证据充分性方面变得不足,从而模拟真实世界中可能出现的各种不可回答的情况。这样可以更全面地评估模型识别和拒绝回答的能力。

技术框架:MM-AQA基准的构建流程包括以下几个关键步骤:首先,选择一组可回答的多模态问题作为基础。然后,通过两种方式对这些问题进行转换:一是改变问题对视觉模态的依赖程度,例如,移除图像中的关键信息或引入干扰信息;二是改变证据的充分性,例如,提供不完整或矛盾的证据。最终,生成一个包含可回答和不可回答问题的混合数据集,用于评估模型的拒绝回答能力。

关键创新:MM-AQA的关键创新在于其构建不可回答问题的方式。它不是简单地随机生成问题,而是通过系统地转换可回答的问题,使其在视觉模态依赖性和证据充分性方面变得不足。这种方法更贴近真实场景,可以更有效地评估模型的拒绝回答能力。此外,该基准还提供了一个统一的评估框架,可以用于比较不同VLM和MAS的性能。

关键设计:MM-AQA基准的设计考虑了以下几个关键因素:首先,问题类型的多样性,包括需要不同程度视觉信息的推理问题。其次,转换方法的选择,确保生成的不可回答问题具有挑战性,并且能够反映真实世界中的失败模式。第三,评估指标的设计,包括准确率、拒绝回答率和准确率-拒绝回答的权衡等,以便全面评估模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有的VLM在标准提示下很少拒绝回答,即使是简单的置信度基线也优于此设置。MAS虽然提高了拒绝回答能力,但引入了准确率-拒绝回答的权衡。顺序设计与迭代变体相匹配或超过迭代变体,表明瓶颈是错误校准而不是推理深度。模型在图像或文本证据缺失时拒绝回答,但试图协调降级或矛盾的证据。

🎯 应用场景

该研究成果可应用于各种需要可靠多模态推理的场景,例如智能客服、自动驾驶、医疗诊断等。通过提高模型拒绝回答的能力,可以避免模型在证据不足时给出错误答案,从而提高系统的安全性和可靠性。未来,可以进一步研究如何训练模型更好地识别和拒绝回答,并将其应用于更广泛的多模态任务中。

📄 摘要(原文)

Effective abstention (EA), recognizing evidence insufficiency and refraining from answering, is critical for reliable multimodal systems. Yet existing evaluation paradigms for vision-language models (VLMs) and multi-agent systems (MAS) assume answerability, pushing models to always respond. Abstention has been studied in text-only settings but remains underexplored multimodally; current benchmarks either ignore unanswerability or rely on coarse methods that miss realistic failure modes. We introduce MM-AQA, a benchmark that constructs unanswerable instances from answerable ones via transformations along two axes: visual modality dependency and evidence sufficiency. Evaluating three frontier VLMs spanning closed and open-source models and two MAS architectures across 2079 samples, we find: (1) under standard prompting, VLMs rarely abstain; even simple confidence baselines outperform this setup, (2) MAS improves abstention but introduces an accuracy-abstention trade-off, (3) sequential designs match or exceed iterative variants, suggesting the bottleneck is miscalibration rather than reasoning depth, and (4) models abstain when image or text evidence is absent, but attempt reconciliation with degraded or contradictory evidence. Effective multimodal abstention requires abstention-aware training rather than better prompting or more agents.