Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs

📄 arXiv: 2408.01355v2 📥 PDF

作者: Peng Ding, Jingyu Wu, Jun Kuang, Dan Ma, Xuezhi Cao, Xunliang Cai, Shi Chen, Jiajun Chen, Shujian Huang

分类: cs.CV, cs.MM

发布日期: 2024-08-02 (更新: 2024-08-05)

备注: Acccepted by ACM MM 2024, 14 pages, 11 figures, 9 tables

🔗 代码/项目: GITHUB


💡 一句话要点

提出Hallu-PI基准,评估多模态大模型在扰动输入下的幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大模型 幻觉评估 扰动输入 基准数据集 视觉语言理解

📋 核心要点

  1. 现有MLLM幻觉评估主要依赖于未扰动数据,忽略了真实世界中常见的图像裁剪、模糊等扰动输入,导致评估不全面。
  2. Hallu-PI基准通过构建包含七种扰动场景的1260张图像数据集,并提供细粒度的幻觉类型标注和丰富的问答集,全面评估MLLM的幻觉。
  3. 实验表明,主流MLLM在Hallu-PI上表现出显著的幻觉,且处理不同类型幻觉的能力存在偏差,突显了模型在扰动输入下的局限性。

📝 摘要(中文)

多模态大型语言模型(MLLM)在各种视觉语言理解和生成任务中表现出了卓越的性能。然而,MLLM有时会生成与给定图像不一致的内容,这被称为“幻觉”。先前的工作主要集中在使用标准、未扰动的基准来评估幻觉,忽略了现实场景中普遍存在的扰动输入(如图像裁剪或模糊),而这些扰动输入对于全面评估MLLM的幻觉至关重要。为了弥补这一差距,我们提出了Hallu-PI,这是第一个旨在评估MLLM在扰动输入下幻觉的基准。具体来说,Hallu-PI由七个扰动场景组成,包含来自11种对象类型的1260个扰动图像。每个图像都附有详细的注释,包括细粒度的幻觉类型,如存在、属性和关系。我们为这些注释配备了丰富的问答集,使Hallu-PI适用于判别和生成任务。对GPT-4V和Gemini-Pro Vision等12个主流MLLM的广泛实验表明,这些模型在Hallu-PI上表现出显著的幻觉,这在未扰动场景中未观察到。此外,我们的研究揭示了MLLM在处理不同类型幻觉的能力方面存在严重的偏差。我们还专门为扰动场景设计了两个基线,即Perturbed-Reminder和Perturbed-ICL。我们希望我们的研究能够引起研究人员对MLLM在处理扰动输入时的局限性的关注,并激发进一步的研究来解决这个问题。我们的代码和数据集可在https://github.com/NJUNLP/Hallu-PI公开获取。

🔬 方法详解

问题定义:论文旨在解决多模态大模型(MLLM)在处理真实场景中常见的扰动输入(例如图像裁剪、模糊等)时,容易产生幻觉的问题。现有评估方法主要基于未扰动的数据集,无法有效衡量MLLM在实际应用中的可靠性。因此,需要一个专门针对扰动输入设计的评估基准,以更全面地了解MLLM的幻觉问题。

核心思路:论文的核心思路是构建一个包含多种扰动类型的图像数据集,并提供细粒度的幻觉标注,从而能够更准确地评估MLLM在处理扰动输入时的幻觉程度和类型。通过分析MLLM在不同扰动场景下的表现,可以揭示其在鲁棒性方面的不足,并为未来的模型改进提供指导。

技术框架:Hallu-PI基准包含以下几个主要组成部分:1) 扰动图像生成:针对11种对象类型,生成包含七种扰动场景的1260张图像。这些扰动场景包括图像裁剪、模糊等。2) 幻觉标注:对每张扰动图像进行详细的幻觉标注,包括幻觉类型(存在、属性、关系)和具体描述。3) 问答集构建:为每张图像生成一系列问题,用于评估MLLM的判别和生成能力。4) 基线模型:设计了Perturbed-Reminder和Perturbed-ICL两个基线模型,用于在扰动场景下进行性能比较。

关键创新:Hallu-PI的关键创新在于:1) 首次提出了针对扰动输入下的MLLM幻觉评估基准。2) 提供了细粒度的幻觉类型标注,能够更深入地分析MLLM的幻觉行为。3) 构建了丰富的问答集,支持判别和生成任务的评估。4) 设计了专门针对扰动场景的基线模型。

关键设计:在扰动图像生成方面,论文选择了常见的图像扰动类型,如裁剪、模糊等,并控制了扰动强度,以保证数据集的多样性和挑战性。在幻觉标注方面,论文定义了三种幻觉类型(存在、属性、关系),并提供了详细的标注指南,以保证标注的准确性和一致性。在问答集构建方面,论文设计了多种类型的问题,包括描述性问题、推理问题等,以全面评估MLLM的理解和生成能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,主流MLLM在Hallu-PI基准上表现出显著的幻觉,例如GPT-4V和Gemini-Pro Vision等模型。与未扰动场景相比,这些模型在扰动输入下的性能明显下降。此外,研究还发现MLLM在处理不同类型的幻觉方面存在偏差,例如在属性幻觉方面表现更差。Perturbed-Reminder和Perturbed-ICL等基线模型在一定程度上缓解了幻觉问题,但仍有很大的提升空间。

🎯 应用场景

该研究成果可应用于提升多模态大模型在实际应用场景中的可靠性和鲁棒性,例如自动驾驶、智能客服、医疗诊断等领域。通过使用Hallu-PI基准评估和改进模型,可以减少模型在处理复杂和不确定输入时产生幻觉的可能性,从而提高系统的安全性和用户体验。未来,该研究可以扩展到更多模态和更复杂的扰动类型。

📄 摘要(原文)

Multi-modal Large Language Models (MLLMs) have demonstrated remarkable performance on various visual-language understanding and generation tasks. However, MLLMs occasionally generate content inconsistent with the given images, which is known as "hallucination". Prior works primarily center on evaluating hallucination using standard, unperturbed benchmarks, which overlook the prevalent occurrence of perturbed inputs in real-world scenarios-such as image cropping or blurring-that are critical for a comprehensive assessment of MLLMs' hallucination. In this paper, to bridge this gap, we propose Hallu-PI, the first benchmark designed to evaluate Hallucination in MLLMs within Perturbed Inputs. Specifically, Hallu-PI consists of seven perturbed scenarios, containing 1,260 perturbed images from 11 object types. Each image is accompanied by detailed annotations, which include fine-grained hallucination types, such as existence, attribute, and relation. We equip these annotations with a rich set of questions, making Hallu-PI suitable for both discriminative and generative tasks. Extensive experiments on 12 mainstream MLLMs, such as GPT-4V and Gemini-Pro Vision, demonstrate that these models exhibit significant hallucinations on Hallu-PI, which is not observed in unperturbed scenarios. Furthermore, our research reveals a severe bias in MLLMs' ability to handle different types of hallucinations. We also design two baselines specifically for perturbed scenarios, namely Perturbed-Reminder and Perturbed-ICL. We hope that our study will bring researchers' attention to the limitations of MLLMs when dealing with perturbed inputs, and spur further investigations to address this issue. Our code and datasets are publicly available at https://github.com/NJUNLP/Hallu-PI.