LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models

📄 arXiv: 2410.09962v2 📥 PDF

作者: Han Qiu, Jiaxing Huang, Peng Gao, Qin Qi, Xiaoqin Zhang, Ling Shao, Shijian Lu

分类: cs.CV

发布日期: 2024-10-13 (更新: 2024-10-15)

🔗 代码/项目: GITHUB


💡 一句话要点

提出LongHalQA,用于评估多模态大语言模型在长文本场景下的幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 幻觉评估 长文本理解 基准测试 GPT4V 视觉问答 多轮对话

📋 核心要点

  1. 现有MLLM幻觉评估方法存在不足,判别式方法问题过于简单,生成式方法依赖LLM评估器,计算成本高且不稳定。
  2. LongHalQA通过GPT4V生成与真实场景对齐的长文本幻觉数据,并设计幻觉辨别和补全任务,统一判别和生成式评估。
  3. 实验表明,LongHalQA揭示了现有MLLM在处理长文本幻觉时面临的新挑战,为未来研究提供了有价值的基准。

📝 摘要(中文)

幻觉是多模态大语言模型(MLLM)中普遍存在的问题,即生成看似合理但与图像内容不符的文本。为了评估MLLM的幻觉水平,现有基准测试主要通过提出关于对象存在的判别性问题或引入LLM评估器来评分生成文本。然而,判别性数据通常涉及与真实文本不符的简单问题,而生成性数据依赖于计算密集且不稳定的LLM评估器。本文提出了LongHalQA,一个无需LLM的幻觉基准,包含6K个长而复杂的幻觉文本。LongHalQA的特点是由GPT4V生成的、与真实场景对齐的幻觉数据,包括对象/图像描述和多轮对话,平均长度分别为14/130个单词和189个单词。它引入了两个新任务:幻觉辨别和幻觉补全,将判别性和生成性评估统一为单一的多项选择题形式,从而实现更可靠和高效的评估,而无需LLM评估器。此外,本文还提出了一个先进的pipeline,极大地促进了未来构建具有长而复杂问题和描述的幻觉基准。对多个最新MLLM的广泛实验揭示了它们在处理具有长而复杂文本数据的幻觉时面临的各种新挑战。数据集和评估代码可在https://github.com/hanqiu-hq/LongHalQA获取。

🔬 方法详解

问题定义:现有评估MLLM幻觉的方法,要么依赖于简单的判别性问题,无法反映真实场景的复杂性;要么使用LLM评估器,计算成本高昂且评估结果不稳定,存在随机性。因此,需要一个更贴近真实场景、更高效且可靠的幻觉评估基准。

核心思路:LongHalQA的核心思路是构建一个包含长文本和复杂场景的幻觉数据集,并设计无需LLM评估器的评估方法。通过GPT4V生成高质量的幻觉数据,保证了数据与真实场景的对齐性。同时,将幻觉评估转化为多项选择题的形式,避免了LLM评估器的使用,提高了评估效率和稳定性。

技术框架:LongHalQA的构建流程主要包括以下几个阶段:1) 使用GPT4V生成长文本幻觉数据,包括对象/图像描述和多轮对话;2) 设计幻觉辨别和幻觉补全两个任务,将幻觉评估转化为多项选择题;3) 构建评估pipeline,对MLLM的幻觉水平进行评估。该框架的核心在于GPT4V生成的数据和多项选择题形式的评估任务。

关键创新:LongHalQA的关键创新在于:1) 构建了一个包含长文本和复杂场景的幻觉数据集,更贴近真实应用场景;2) 提出了无需LLM评估器的评估方法,提高了评估效率和稳定性;3) 统一了判别性和生成性评估,通过多项选择题的形式,同时考察了MLLM的辨别和生成能力。

关键设计:LongHalQA的关键设计包括:1) 使用GPT4V生成幻觉数据时,控制生成文本的长度和复杂度,使其更贴近真实场景;2) 在设计多项选择题时,保证选项的合理性和区分度,避免出现过于简单或过于模糊的选项;3) 评估pipeline的设计,保证了评估过程的自动化和可重复性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LongHalQA数据集包含6K个长文本幻觉数据,平均长度超过现有基准。实验结果表明,现有MLLM在处理LongHalQA数据集时,幻觉问题更加突出,表明长文本和复杂场景对MLLM的幻觉抑制提出了更高的挑战。LongHalQA为MLLM的幻觉评估提供了一个更具挑战性和代表性的基准。

🎯 应用场景

LongHalQA可用于评估和改进多模态大语言模型的幻觉问题,提高其在图像描述、视觉问答、多轮对话等任务中的可靠性和准确性。该基准测试有助于推动MLLM在智能客服、自动驾驶、医疗诊断等领域的应用,并为未来的幻觉检测和缓解方法提供参考。

📄 摘要(原文)

Hallucination, a phenomenon where multimodal large language models~(MLLMs) tend to generate textual responses that are plausible but unaligned with the image, has become one major hurdle in various MLLM-related applications. Several benchmarks have been created to gauge the hallucination levels of MLLMs, by either raising discriminative questions about the existence of objects or introducing LLM evaluators to score the generated text from MLLMs. However, the discriminative data largely involve simple questions that are not aligned with real-world text, while the generative data involve LLM evaluators that are computationally intensive and unstable due to their inherent randomness. We propose LongHalQA, an LLM-free hallucination benchmark that comprises 6K long and complex hallucination text. LongHalQA is featured by GPT4V-generated hallucinatory data that are well aligned with real-world scenarios, including object/image descriptions and multi-round conversations with 14/130 words and 189 words, respectively, on average. It introduces two new tasks, hallucination discrimination and hallucination completion, unifying both discriminative and generative evaluations in a single multiple-choice-question form and leading to more reliable and efficient evaluations without the need for LLM evaluators. Further, we propose an advanced pipeline that greatly facilitates the construction of future hallucination benchmarks with long and complex questions and descriptions. Extensive experiments over multiple recent MLLMs reveal various new challenges when they are handling hallucinations with long and complex textual data. Dataset and evaluation code are available at https://github.com/hanqiu-hq/LongHalQA.