A Survey of Multimodal Hallucination Evaluation and Detection

📄 arXiv: 2507.19024v2 📥 PDF

作者: Zhiyuan Chen, Yuecong Min, Jie Zhang, Bei Yan, Jiahao Wang, Xiaozhen Wang, Shiguang Shan

分类: cs.CV

发布日期: 2025-07-25 (更新: 2026-01-10)

备注: 40 pages, 5 figures


💡 一句话要点

综述多模态幻觉评估与检测方法,涵盖图像到文本和文本到图像生成任务。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 幻觉检测 幻觉评估 图像到文本 文本到图像 大语言模型 人工智能安全

📋 核心要点

  1. 多模态大语言模型面临幻觉问题,生成内容与输入或常识不符,降低了模型可靠性。
  2. 论文对图像到文本和文本到图像任务中的幻觉评估基准和检测方法进行了全面综述。
  3. 论文总结了现有方法的局限性,并为未来研究方向提供了指导,具有重要的参考价值。

📝 摘要(中文)

多模态大型语言模型(MLLMs)已成为集成视觉和文本信息的强大范例,支持广泛的多模态任务。然而,这些模型经常遭受幻觉问题,产生的内容看似合理,但与输入内容或已知的世界知识相矛盾。本综述深入研究了图像到文本(I2T)和文本到图像(T2I)生成任务中的幻觉评估基准和检测方法。具体来说,我们首先基于忠实性和事实性提出了幻觉的分类,纳入了实践中常见的幻觉类型。然后,我们概述了现有的T2I和I2T任务的幻觉评估基准,重点介绍了它们的构建过程、评估目标和采用的指标。此外,我们总结了幻觉检测方法的最新进展,旨在识别实例级别的幻觉内容,并作为基于基准评估的实用补充。最后,我们强调了当前基准和检测方法中的关键局限性,并概述了未来研究的潜在方向。

🔬 方法详解

问题定义:多模态大语言模型(MLLMs)在图像到文本(I2T)和文本到图像(T2I)生成任务中,会产生与输入内容或世界知识相悖的“幻觉”内容。现有方法在评估和检测这些幻觉方面存在不足,缺乏统一的分类标准和全面的评估基准。

核心思路:该综述的核心思路是对现有幻觉评估基准和检测方法进行系统性的梳理和分析,并基于忠实性和事实性提出幻觉的分类标准。通过对比不同方法的优缺点,为未来的研究方向提供指导。

技术框架:该综述的技术框架主要包含以下几个部分:1)提出幻觉的分类标准,包括忠实性幻觉和事实性幻觉;2)概述现有的T2I和I2T任务的幻觉评估基准,分析其构建过程、评估目标和采用的指标;3)总结幻觉检测方法的最新进展,包括实例级别的幻觉识别;4)讨论当前基准和检测方法的局限性,并展望未来研究方向。

关键创新:该综述的关键创新在于:1)提出了一个更全面的幻觉分类体系,有助于更精确地定义和识别不同类型的幻觉;2)系统地总结和比较了现有的幻觉评估基准和检测方法,为研究人员提供了一个全面的参考;3)指出了当前研究的局限性,并为未来的研究方向提供了有价值的见解。

关键设计:该综述的关键设计在于其结构化的组织方式,从幻觉的定义和分类,到评估基准和检测方法,再到局限性和未来方向,逻辑清晰,易于理解。此外,该综述还特别关注了不同评估指标的优缺点,以及不同检测方法的适用场景。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该综述系统地整理了现有的多模态幻觉评估基准和检测方法,并提出了基于忠实性和事实性的幻觉分类,为后续研究提供了清晰的框架。通过分析现有方法的局限性,为未来的研究方向,如更鲁棒的幻觉检测模型和更全面的评估基准,提供了有价值的指导。

🎯 应用场景

该研究成果可应用于提升多模态大语言模型在图像描述、视觉问答、图像生成等领域的可靠性和准确性。通过更有效的幻觉检测和评估,可以开发出更值得信赖的多模态人工智能系统,应用于智能客服、自动驾驶、医疗诊断等领域。

📄 摘要(原文)

Multi-modal Large Language Models (MLLMs) have emerged as a powerful paradigm for integrating visual and textual information, supporting a wide range of multi-modal tasks. However, these models often suffer from hallucination, producing content that appears plausible but contradicts the input content or established world knowledge. This survey offers an in-depth review of hallucination evaluation benchmarks and detection methods across Image-to-Text (I2T) and Text-to-image (T2I) generation tasks. Specifically, we first propose a taxonomy of hallucination based on faithfulness and factuality, incorporating the common types of hallucinations observed in practice. Then we provide an overview of existing hallucination evaluation benchmarks for both T2I and I2T tasks, highlighting their construction process, evaluation objectives, and employed metrics. Furthermore, we summarize recent advances in hallucination detection methods, which aims to identify hallucinated content at the instance level and serve as a practical complement of benchmark-based evaluation. Finally, we highlight key limitations in current benchmarks and detection methods, and outline potential directions for future research.