AVCD: Mitigating Hallucinations in Audio-Visual Large Language Models through Contrastive Decoding

📄 arXiv: 2505.20862v2 📥 PDF

作者: Chaeyoung Jung, Youngjoon Jang, Joon Son Chung

分类: cs.CV

发布日期: 2025-05-27 (更新: 2025-09-30)

🔗 代码/项目: GITHUB


💡 一句话要点

提出AVCD,通过对比解码缓解音视频大语言模型中的幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音视频大语言模型 对比解码 幻觉缓解 多模态学习 注意力机制

📋 核心要点

  1. 多模态大语言模型在音视频理解中存在幻觉问题,现有对比解码方法难以有效处理音视频模态间的复杂交互。
  2. AVCD利用注意力分布动态识别弱势模态,通过注意力掩码生成扰动logits,并改进对比解码框架以适应三模态输入。
  3. 实验表明,AVCD在AVHBench数据集上显著提升了VideoLLaMA2和video-SALMONN的准确率,展现了其优越性和泛化性。

📝 摘要(中文)

幻觉是多模态大语言模型(MLLM)面临的主要挑战。为了解决这个问题,已经提出了各种对比解码(CD)方法,这些方法将原始logits与从扰动输入生成的幻觉logits进行对比。虽然CD在视觉-语言模型(VLM)中显示出希望,但它不太适合AV-LLM,在AV-LLM中,幻觉通常来自涉及音频、视频和语言的单模态和跨模态组合。这些复杂的交互需要一种更具适应性和模态感知的解码策略。在本文中,我们提出了一种新颖的、无需训练的解码框架——音视频对比解码(AVCD),旨在建模三模态交互并抑制AV-LLM中模态引起的幻觉。与之前VLM中破坏固定模态的CD方法不同,AVCD利用注意力分布来动态识别不太占主导地位的模态,并应用注意力掩码来生成扰动输出logits。为了支持三模态设置中的CD,我们还重新制定了原始CD框架,以联合处理音频、视觉和文本输入。最后,为了提高效率,我们引入了熵引导的自适应解码,该解码基于模型对其预测的置信度选择性地跳过不必要的解码步骤。大量的实验表明,AVCD始终优于现有的解码方法。特别是在AVHBench数据集上,它将VideoLLaMA2的准确率提高了2%,将video-SALMONN的准确率提高了7%,证明了其强大的鲁棒性和泛化能力。我们的代码可在https://github.com/kaistmm/AVCD 获得。

🔬 方法详解

问题定义:论文旨在解决音视频大语言模型(AV-LLM)中存在的幻觉问题。现有的对比解码(CD)方法主要针对视觉-语言模型(VLM),无法有效处理AV-LLM中音频、视频和文本之间复杂的模态交互,以及由此产生的模态诱导幻觉。这些方法通常采用固定的模态扰动策略,缺乏对不同模态重要性的动态感知能力。

核心思路:AVCD的核心思路是利用注意力机制动态地识别在生成过程中贡献较小的模态,并对其进行扰动,从而生成对比logits。通过对比原始logits和扰动后的logits,模型可以更好地学习区分真实信息和幻觉信息,从而减少幻觉的产生。这种动态扰动策略能够更好地适应AV-LLM中不同模态的重要性变化。

技术框架:AVCD框架主要包含以下几个步骤:1) 输入音频、视频和文本数据;2) 利用AV-LLM生成原始logits;3) 基于注意力分布,动态识别贡献较小的模态;4) 对识别出的模态应用注意力掩码,生成扰动后的输入,并再次通过AV-LLM生成扰动logits;5) 利用改进的对比解码框架,对比原始logits和扰动logits,得到最终的预测结果;6) 可选地,使用熵引导的自适应解码,根据模型置信度跳过不必要的解码步骤,提高效率。

关键创新:AVCD的关键创新在于:1) 提出了一种动态的模态扰动策略,能够根据注意力分布自适应地选择需要扰动的模态,而非固定扰动;2) 改进了对比解码框架,使其能够同时处理音频、视频和文本三种模态;3) 引入了熵引导的自适应解码,能够在保证性能的同时提高解码效率。

关键设计:在注意力掩码方面,论文采用了一种软掩码策略,即根据注意力权重对模态特征进行加权,而非直接移除。在对比解码损失函数方面,论文采用了一种改进的交叉熵损失函数,该函数同时考虑了原始logits和扰动logits,并引入了一个超参数来平衡两者的重要性。熵引导的自适应解码部分,使用预测结果的熵值作为模型置信度的指标,当熵值低于某个阈值时,则跳过后续的解码步骤。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AVCD在AVHBench数据集上取得了显著的性能提升。具体而言,对于VideoLLaMA2模型,AVCD的准确率提高了2%;对于video-SALMONN模型,准确率提高了7%。这些结果表明,AVCD能够有效缓解音视频大语言模型中的幻觉问题,并具有良好的鲁棒性和泛化能力。此外,熵引导的自适应解码策略在保证性能的同时,提高了推理效率。

🎯 应用场景

AVCD可应用于各种音视频内容理解任务,例如视频问答、视频字幕生成、音视频摘要等。通过减少模型幻觉,可以提高这些任务的准确性和可靠性,从而在智能监控、自动驾驶、人机交互等领域具有广泛的应用前景。未来,该方法可以进一步扩展到其他多模态场景,例如医学影像分析、机器人导航等。

📄 摘要(原文)

Hallucination remains a major challenge in multimodal large language models (MLLMs). To address this, various contrastive decoding (CD) methods have been proposed that contrasts original logits with hallucinated logits generated from perturbed inputs. While CD has shown promise in vision-language models (VLMs), it is not well-suited for AV-LLMs, where hallucinations often emerge from both unimodal and cross-modal combinations involving audio, video, and language. These intricate interactions call for a more adaptive and modality-aware decoding strategy. In this paper, we propose Audio-Visual Contrastive Decoding (AVCD)-a novel, training-free decoding framework designed to model trimodal interactions and suppress modality-induced hallucinations in AV-LLMs. Unlike previous CD methods in VLMs that corrupt a fixed modality, AVCD leverages attention distributions to dynamically identify less dominant modalities and applies attentive masking to generate perturbed output logits. To support CD in a trimodal setting, we also reformulate the original CD framework to jointly handle audio, visual, and textual inputs. Finally, to improve efficiency, we introduce entropy-guided adaptive decoding, which selectively skips unnecessary decoding steps based on the model's confidence in its predictions. Extensive experiments demonstrate that AVCD consistently outperforms existing decoding methods. Especially, on the AVHBench dataset, it improves accuracy by 2% for VideoLLaMA2 and 7% for video-SALMONN, demonstrating strong robustness and generalizability. Our code is available at https://github.com/kaistmm/AVCD.