MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM

📄 arXiv: 2505.24238v2 📥 PDF

作者: Bowen Dong, Minheng Ni, Zitong Huang, Guanglei Yang, Wangmeng Zuo, Lei Zhang

分类: cs.CV, cs.LG

发布日期: 2025-05-30 (更新: 2025-06-02)


💡 一句话要点

提出MIRAGE基准以解决多模态大语言模型的幻觉问题

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 幻觉现象 推理能力 课程强化微调 协作提示推理 评估指标 逻辑一致性

📋 核心要点

  1. 现有基准未能有效区分感知引起的幻觉与推理引起的幻觉,限制了对多模态推理失败的诊断。
  2. 提出MIRAGE基准,通过构建特定问题来隔离推理幻觉,并引入多粒度评估指标进行量化。
  3. 实验表明,所提方法在减少逻辑幻觉方面有效,且在MIRAGE基准上建立了新的基线表现。

📝 摘要(中文)

多模态大语言模型(MLLMs)中的幻觉现象限制了其正确性。然而,现有基准未能有效区分感知引起的幻觉与推理引起的幻觉。为此,本文提出了MIRAGE基准,通过构建输入图像被正确感知但推理错误的问题,来隔离推理幻觉。MIRAGE引入了多粒度评估指标:准确性、事实性和幻觉评分,以量化幻觉。分析结果显示,模型规模、数据规模和训练阶段显著影响逻辑、虚构和事实幻觉的程度。此外,当前MLLMs在空间幻觉方面未见有效改善,表明其视觉推理能力有限。为应对这些挑战,本文提出了结合课程强化微调和协作提示推理的方法,建立了MIRAGE基准的基线,并减少了原始基础模型中的逻辑幻觉。

🔬 方法详解

问题定义:本文旨在解决多模态大语言模型中的幻觉现象,尤其是推理引起的幻觉。现有方法未能有效区分感知与推理的幻觉,导致诊断困难。

核心思路:通过构建特定问题,确保输入图像被正确感知但推理仍然错误,从而隔离推理幻觉。结合课程强化微调和协作提示推理,逐步降低学习难度,鼓励模型生成逻辑一致的推理链。

技术框架:整体架构包括数据集构建、评估指标设计和模型训练三个主要模块。数据集构建用于生成特定问题,评估指标用于量化幻觉,模型训练则通过强化微调和提示推理来优化推理能力。

关键创新:最重要的创新在于MIRAGE基准的提出,能够有效隔离推理幻觉,并引入多粒度评估指标,提供更细致的幻觉量化方式。

关键设计:在模型训练中,采用课程强化微调策略,设置逐步降低的学习难度,并设计特定的损失函数以优化逻辑一致性,同时引入协作提示推理以简化推理过程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提方法在MIRAGE基准上显著减少了逻辑幻觉,建立了新的基线表现,提升幅度明显,展示了模型在处理复杂推理任务中的潜力。

🎯 应用场景

该研究的潜在应用领域包括多模态人工智能系统、智能问答、图像理解等。通过改善多模态大语言模型的推理能力,能够提升其在实际应用中的准确性和可靠性,具有重要的实际价值和未来影响。

📄 摘要(原文)

Multimodal hallucination in multimodal large language models (MLLMs) restricts the correctness of MLLMs. However, multimodal hallucinations are multi-sourced and arise from diverse causes. Existing benchmarks fail to adequately distinguish between perception-induced hallucinations and reasoning-induced hallucinations. This failure constitutes a significant issue and hinders the diagnosis of multimodal reasoning failures within MLLMs. To address this, we propose the {\dataset} benchmark, which isolates reasoning hallucinations by constructing questions where input images are correctly perceived by MLLMs yet reasoning errors persist. {\dataset} introduces multi-granular evaluation metrics: accuracy, factuality, and LLMs hallucination score for hallucination quantification. Our analysis reveals that (1) the model scale, data scale, and training stages significantly affect the degree of logical, fabrication, and factual hallucinations; (2) current MLLMs show no effective improvement on spatial hallucinations caused by misinterpreted spatial relationships, indicating their limited visual reasoning capabilities; and (3) question types correlate with distinct hallucination patterns, highlighting targeted challenges and potential mitigation strategies. To address these challenges, we propose {\method}, a method that combines curriculum reinforcement fine-tuning to encourage models to generate logic-consistent reasoning chains by stepwise reducing learning difficulty, and collaborative hint inference to reduce reasoning complexity. {\method} establishes a baseline on {\dataset}, and reduces the logical hallucinations in original base models.