BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-language Models

📄 arXiv: 2407.13442v1 📥 PDF

作者: Moon Ye-Bin, Nam Hyeon-Woo, Wonseok Choi, Tae-Hyun Oh

分类: cs.CV, cs.CL

发布日期: 2024-07-18

备注: Accepted at ECCV 2024. [Project Pages] https://beafbench.github.io/


💡 一句话要点

提出BEAF数据集与评测指标,用于评估视觉语言模型在场景变化下的幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 幻觉评估 数据集构建 场景变化 图像编辑

📋 核心要点

  1. 现有VLM易受幻觉影响,降低了其可靠性和可信度,阻碍了用户对其输出的信任。
  2. 该论文通过操纵图像场景信息,观察VLM对场景变化的感知能力,从而评估其理解能力。
  3. 提出了BEAF数据集和新的评估指标,揭示了VLM幻觉的不同方面,为后续研究提供了新的视角。

📝 摘要(中文)

视觉语言模型(VLM)通过视觉编码器和大型语言模型(LLM)结合感知世界。视觉编码器在大规模视觉-文本数据集上预训练,为视觉数据提供零样本泛化能力,而LLM则赋予VLM强大的推理能力。这使得VLM无需微调即可在广泛的基准测试中实现高性能,展现出零样本或少样本能力。然而,最近的研究表明,VLM容易产生幻觉。这种不良行为降低了可靠性和可信度,使用户无法完全信任VLM的输出。为了提高可信度并更好地解决VLM的幻觉问题,我们创建了一个新的评估数据集,称为BEfore-AFter幻觉数据集(BEAF),并引入了新的指标:True Understanding(TU)、IGnorance(IG)、StuBbornness(SB)和InDecision(ID)。与以往只关注构建问题和答案的工作不同,我们的基准测试的关键思想是通过图像编辑模型来操纵视觉场景信息,并基于场景变化来设计指标。这使我们能够通过观察感知变化的能力来清楚地评估VLM是否正确理解给定的场景。我们还借助视觉和文本的双轴视图来可视化图像级的对象关系。通过使用我们的数据集评估VLM,我们观察到我们的指标揭示了以前未报告的VLM幻觉的不同方面。

🔬 方法详解

问题定义:视觉语言模型(VLM)在理解图像内容时,容易产生幻觉,即生成与图像不符的信息。现有的评估方法主要集中在问答形式,难以直接衡量VLM对场景变化的感知能力,也无法有效区分不同类型的幻觉。因此,需要一种更细粒度、更贴合实际场景的评估方法来诊断VLM的幻觉问题。

核心思路:该论文的核心思路是通过引入“前-后”场景变化,来考察VLM是否能够正确理解场景中的对象关系以及变化。具体来说,通过图像编辑技术对原始图像进行修改,生成“前”和“后”两个版本的图像,然后设计相应的评估指标,来衡量VLM对这些变化的感知能力。这种方法能够更直接地反映VLM对场景的真实理解程度,从而更有效地评估其幻觉问题。

技术框架:BEAF数据集构建流程如下:首先,收集包含丰富对象和关系的图像。然后,利用图像编辑模型对图像进行修改,例如添加、删除或改变对象属性。针对每个图像对(前-后),设计一系列问题,这些问题旨在考察VLM是否能够正确识别场景中的变化。最后,使用VLM生成答案,并根据答案计算新的评估指标。这些指标包括:True Understanding (TU),衡量VLM正确理解场景变化的程度;Ignorance (IG),衡量VLM忽略场景变化的程度;Stubbornness (SB),衡量VLM坚持错误答案的程度;InDecision (ID),衡量VLM无法确定答案的程度。

关键创新:该论文的关键创新在于提出了基于“前-后”场景变化的评估方法,以及相应的评估指标。与以往的评估方法相比,这种方法能够更直接地衡量VLM对场景的真实理解程度,从而更有效地评估其幻觉问题。此外,该论文还通过可视化图像级的对象关系,为分析VLM的幻觉原因提供了新的视角。

关键设计:BEAF数据集的关键设计在于图像编辑策略和问题设计。图像编辑策略需要保证场景变化具有一定的语义意义,并且能够有效地触发VLM的幻觉。问题设计需要保证能够准确地考察VLM对场景变化的感知能力,并且能够区分不同类型的幻觉。此外,评估指标的设计也至关重要,需要能够准确地反映VLM的理解程度,并且能够有效地区分不同类型的幻觉。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

通过在BEAF数据集上评估多个VLM模型,发现现有模型在场景变化下的幻觉问题依然严重。例如,部分模型在对象被移除后仍然坚持认为该对象存在(Stubbornness)。实验结果表明,BEAF数据集和评估指标能够有效地揭示VLM幻觉的不同方面,为后续研究提供了重要的参考。

🎯 应用场景

该研究成果可应用于提升视觉语言模型的可靠性和可信度,尤其是在需要高度准确性的场景中,例如自动驾驶、医疗诊断和智能客服。通过BEAF数据集和评估指标,可以更好地诊断和改进VLM的幻觉问题,从而提高其在实际应用中的性能和安全性。未来,该研究可以扩展到更复杂的场景和任务,例如视频理解和人机交互。

📄 摘要(原文)

Vision language models (VLMs) perceive the world through a combination of a visual encoder and a large language model (LLM). The visual encoder, pre-trained on large-scale vision-text datasets, provides zero-shot generalization to visual data, and the LLM endows its high reasoning ability to VLMs. It leads VLMs to achieve high performance on wide benchmarks without fine-tuning, exhibiting zero or few-shot capability. However, recent studies show that VLMs are vulnerable to hallucination. This undesirable behavior degrades reliability and credibility, thereby making users unable to fully trust the output from VLMs. To enhance trustworthiness and better tackle the hallucination of VLMs, we curate a new evaluation dataset, called the BEfore-AFter hallucination dataset (BEAF), and introduce new metrics: True Understanding (TU), IGnorance (IG), StuBbornness (SB), and InDecision (ID). Unlike prior works that focus only on constructing questions and answers, the key idea of our benchmark is to manipulate visual scene information by image editing models and to design the metrics based on scene changes. This allows us to clearly assess whether VLMs correctly understand a given scene by observing the ability to perceive changes. We also visualize image-wise object relationship by virtue of our two-axis view: vision and text. Upon evaluating VLMs with our dataset, we observed that our metrics reveal different aspects of VLM hallucination that have not been reported before. Project page: \url{https://beafbench.github.io/}