ReactBench: A Cause-Driven Benchmark for Multimodal Hallucination via Systematic Evaluation

📄 arXiv: 2605.29579v1 📥 PDF

作者: Shizhe Zhou, Bohan Jia, Kai Wu, Yan Shen, Tongyun Li, Yuyang Wu, Shaohui Lin

分类: cs.CV

发布日期: 2026-05-28

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

ReactBench:提出一个因果驱动的多模态幻觉评测基准,系统性评估视觉语言模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态幻觉 视觉语言模型 评测基准 因果分析 思维链推理

📋 核心要点

  1. 现有MLLM评测基准侧重于幻觉结果检测,忽略了导致幻觉的根本原因,且场景过于简单。
  2. ReactBench通过生成对抗图像和诱导幻觉的查询,设计了四个针对性任务,暴露模型弱点。
  3. ReactBench不仅评估准确率,还利用思维链推理识别幻觉的细粒度子原因,提供可解释性。

📝 摘要(中文)

多模态大型语言模型(MLLMs)在视觉-语言理解方面取得了快速进展,但仍然容易产生多模态幻觉,即生成与视觉输入不一致的响应。现有的基准测试主要侧重于检测幻觉结果,而不是评估这些失败的根本原因。此外,许多基准测试依赖于简单的场景和有限的评估格式,这些已无法挑战最先进的模型。为了解决这些局限性,我们引入了ReactBench,这是一个因果驱动的幻觉基准,具有多个任务和考试式评估格式。通过生成对抗性图像和诱导幻觉的查询,ReactBench引入了四个有针对性的任务:关系擦除、反事实属性、变更追踪和密集计数。这些任务系统地暴露了共现偏差、语言先验、跨图像比较感知缺陷和细粒度感知瓶颈。除了基于标准准确率的评估之外,我们还利用思维链推理来识别每个任务中幻觉的细粒度子原因。广泛的评估表明,当前的MLLM仍然容易受到特定原因的幻觉触发因素的影响,证明了ReactBench作为诊断和提高多模态模型鲁棒性的系统且可解释的测试平台的价值。

🔬 方法详解

问题定义:现有视觉语言模型(MLLMs)容易产生多模态幻觉,即生成与视觉输入不一致的响应。现有的评测基准主要关注幻觉的表象,缺乏对幻觉根本原因的系统性分析,并且测试场景过于简单,无法有效评估当前先进模型。这使得我们难以诊断和改进MLLMs的鲁棒性。

核心思路:ReactBench的核心思路是通过构建一系列精心设计的任务,系统性地诱导和暴露MLLMs在不同方面的缺陷,从而揭示导致幻觉的根本原因。通过分析模型在这些任务中的表现,可以更深入地了解模型的弱点,并为改进模型提供指导。

技术框架:ReactBench包含以下几个主要组成部分: 1. 对抗图像生成:生成能够诱导特定类型幻觉的对抗性图像。 2. 幻觉诱导查询:设计能够触发模型产生幻觉的查询。 3. 任务设计:设计四个针对性的任务:关系擦除、反事实属性、变更追踪和密集计数,分别考察模型在不同方面的能力。 4. 评估指标:除了标准的准确率评估外,还使用思维链推理来识别幻觉的细粒度子原因。

关键创新:ReactBench的关键创新在于其因果驱动的设计理念。它不仅仅关注幻觉的结果,更重要的是揭示导致幻觉的根本原因。通过系统性地暴露模型的弱点,ReactBench为诊断和改进MLLMs的鲁棒性提供了新的视角。此外,采用思维链推理来分析幻觉的子原因,增强了评估的可解释性。

关键设计: * 关系擦除:通过移除图像中对象之间的关系,考察模型对对象间关系的理解能力。 * 反事实属性:通过修改图像中对象的属性,考察模型对反事实场景的推理能力。 * 变更追踪:通过在图像序列中引入细微的变更,考察模型对图像变化的感知能力。 * 密集计数:考察模型对图像中密集对象的计数能力。 每个任务都包含精心设计的对抗图像和幻觉诱导查询,以确保能够有效地暴露模型的弱点。思维链推理被用于分析模型产生幻觉的原因,提供更细粒度的评估结果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,当前最先进的MLLMs在ReactBench的各项任务中都表现出明显的幻觉现象,尤其是在关系擦除和反事实属性任务中。通过思维链推理分析,发现模型容易受到共现偏差、语言先验等因素的影响。这些结果验证了ReactBench作为诊断和改进MLLMs鲁棒性的有效性。

🎯 应用场景

ReactBench可用于评估和改进多模态大型语言模型的鲁棒性和可靠性,尤其是在需要高度准确性和一致性的应用场景中,例如自动驾驶、医疗诊断、智能客服等。通过诊断模型在特定任务上的弱点,可以有针对性地改进模型的架构、训练数据和推理策略,从而提高模型的性能和安全性。

📄 摘要(原文)

While multimodal large language models (MLLMs) have achieved rapid progress in vision-language understanding, they remain prone to multimodal hallucinations, producing responses that are inconsistent with the visual input. Existing benchmarks predominantly focus on detecting hallucination outcomes rather than evaluating the underlying causes of these failures. Moreover, many benchmarks rely on simplistic scenarios and limited evaluation formats that no longer challenge state-of-the-art models. To address these limitations, we introduce ReactBench, a cause-driven hallucination benchmark featuring multiple tasks and an exam-style evaluation format. By generating adversarial images and hallucination-inducing queries, ReactBench introduces four targeted tasks: Relational Erasure, Counterfactual Attribute, Alteration Tracing, and Dense Counting. These tasks systematically expose co-occurrence bias, language priors, cross-image comparative perception deficiencies, and fine-grained perceptual bottlenecks. Beyond standard accuracy-based evaluation, we leverage Chain-of-Thought reasoning to identify fine-grained sub-causes of hallucination within each task. Extensive evaluations reveal that current MLLMs remain notably vulnerable to cause-specific hallucination triggers, demonstrating the value of ReactBench as a systematic and interpretable testbed for diagnosing and improving multimodal model robustness. The project page is available at https://reactbench.github.io/.