AVHBench: A Cross-Modal Hallucination Benchmark for Audio-Visual Large Language Models

📄 arXiv: 2410.18325v2 📥 PDF

作者: Kim Sung-Bin, Oh Hyun-Bin, JungMok Lee, Arda Senocak, Joon Son Chung, Tae-Hyun Oh

分类: cs.CV

发布日期: 2024-10-23 (更新: 2025-03-17)

备注: ICLR 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出AVHBench,用于评估音视频大语言模型中的跨模态幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音视频大语言模型 跨模态幻觉 基准测试 多模态理解 模型评估

📋 核心要点

  1. 现有音视频大语言模型难以捕捉音频和视觉信号间的细微关联,导致产生幻觉,缺乏有效评估工具。
  2. 提出AVHBench基准,包含幻觉评估、跨模态匹配和推理能力测试,旨在全面评估音视频LLM的性能。
  3. 实验表明现有音视频LLM在跨模态交互中易产生幻觉,使用AVHBench训练可提升模型抵抗幻觉的鲁棒性。

📝 摘要(中文)

随着大型语言模型(LLMs)的成功,将其边界扩展到新的模态代表了多模态理解中的重大范式转变。人类的感知本质上是多模态的,不仅依赖于文本,还依赖于听觉和视觉线索来完整理解世界。因此,音视频LLM应运而生。尽管发展前景广阔,但缺乏专门的基准测试给理解和评估模型带来了挑战。本文表明,音视频LLM难以辨别音频和视觉信号之间的细微关系,导致幻觉,并突出了可靠基准测试的必要性。为此,我们引入了AVHBench,这是第一个专门用于评估音视频LLM的感知和理解能力的综合基准。我们的基准包括评估幻觉以及这些模型的跨模态匹配和推理能力的测试。结果表明,由于现有音视频LLM感知复杂多模态信号及其关系的能力有限,它们在模态之间的交叉交互作用下容易产生幻觉。此外,我们证明了使用AVHBench进行简单训练可以提高音视频LLM抵抗幻觉的鲁棒性。

🔬 方法详解

问题定义:现有音视频大语言模型在处理跨模态信息时,容易产生幻觉,即模型输出的信息与实际的音视频内容不符。这种幻觉的产生源于模型对不同模态之间复杂关系的理解不足,以及缺乏专门的评估工具来衡量模型的跨模态感知能力。现有方法难以有效区分模型是真正理解了音视频内容,还是仅仅基于单模态信息进行推断,从而导致幻觉问题难以被发现和解决。

核心思路:AVHBench的核心思路是构建一个包含多种测试用例的基准数据集,这些测试用例旨在挑战音视频大语言模型在跨模态理解方面的能力。通过精心设计的测试,AVHBench能够有效地检测模型在处理音频和视觉信息时是否会产生幻觉,以及模型在跨模态匹配和推理方面的表现。这样设计的目的是为了更全面地评估模型的跨模态感知能力,并为模型的改进提供指导。

技术框架:AVHBench的整体框架包含以下几个主要组成部分:1) 数据集构建:收集和整理包含音频和视频信息的样本,并设计相应的测试用例,用于评估模型的跨模态理解能力。2) 评估指标:定义一系列评估指标,用于衡量模型在不同测试用例上的表现,包括幻觉检测、跨模态匹配和推理能力等。3) 基线模型:选择一些现有的音视频大语言模型作为基线,在AVHBench上进行测试,并记录其性能表现。4) 训练和微调:使用AVHBench数据集对模型进行训练或微调,以提高模型在跨模态理解方面的能力。

关键创新:AVHBench的关键创新在于其专门针对音视频大语言模型的跨模态幻觉问题而设计。与现有的通用多模态基准测试相比,AVHBench更加关注音频和视觉信息之间的细微关系,并提供了一系列专门用于检测幻觉的测试用例。此外,AVHBench还提供了一套完整的评估指标,用于衡量模型在跨模态匹配和推理方面的表现,从而更全面地评估模型的跨模态感知能力。

关键设计:AVHBench的关键设计包括:1) 多样化的测试用例:包含多种类型的音频和视频内容,以及不同难度的测试问题,以全面评估模型的跨模态理解能力。2) 精心设计的评估指标:包括幻觉检测率、跨模态匹配准确率和推理能力得分等,用于量化模型的性能表现。3) 可扩展的框架:允许用户添加新的测试用例和评估指标,以适应不同模型的特点和需求。4) 开源的数据集和代码:方便研究人员使用和改进AVHBench,促进音视频大语言模型的发展。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有音视频大语言模型在AVHBench上表现不佳,容易产生跨模态幻觉。通过使用AVHBench进行简单训练,可以显著提高模型抵抗幻觉的鲁棒性。具体而言,经过AVHBench训练的模型在幻觉检测率方面取得了显著提升,表明该基准能够有效地指导模型的改进。

🎯 应用场景

AVHBench可应用于评估和提升音视频大语言模型在视频理解、智能监控、人机交互等领域的性能。通过该基准,研究人员可以更有效地识别和解决模型中的幻觉问题,提高模型在实际应用中的可靠性和准确性。此外,AVHBench还可以促进音视频大语言模型在教育、娱乐、医疗等领域的应用,例如,开发更智能的视频分析工具、更自然的语音助手等。

📄 摘要(原文)

Following the success of Large Language Models (LLMs), expanding their boundaries to new modalities represents a significant paradigm shift in multimodal understanding. Human perception is inherently multimodal, relying not only on text but also on auditory and visual cues for a complete understanding of the world. In recognition of this fact, audio-visual LLMs have recently emerged. Despite promising developments, the lack of dedicated benchmarks poses challenges for understanding and evaluating models. In this work, we show that audio-visual LLMs struggle to discern subtle relationships between audio and visual signals, leading to hallucinations and highlighting the need for reliable benchmarks. To address this, we introduce AVHBench, the first comprehensive benchmark specifically designed to evaluate the perception and comprehension capabilities of audio-visual LLMs. Our benchmark includes tests for assessing hallucinations, as well as the cross-modal matching and reasoning abilities of these models. Our results reveal that most existing audio-visual LLMs struggle with hallucinations caused by cross-interactions between modalities, due to their limited capacity to perceive complex multimodal signals and their relationships. Additionally, we demonstrate that simple training with our AVHBench improves robustness of audio-visual LLMs against hallucinations. Dataset: https://github.com/kaist-ami/AVHBench