Do Audio-Visual Large Language Models Really See and Hear?

📄 arXiv: 2604.02605 📥 PDF

作者: Ramaneswaran Selvakumar, Kaousheik Jayakumar, S Sakshi, Sreyan Ghosh, Ruohan Gao, Dinesh Manocha

分类: cs.AI, cs.SD

发布日期: 2026-04-06


💡 一句话要点

AVLLM模态偏见研究:揭示视听大语言模型中视觉主导的融合机制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视听大语言模型 多模态融合 机制可解释性 模态偏见 音频理解

📋 核心要点

  1. 现有AVLLM在处理视听信息时,存在模态融合不平衡的问题,尤其是在音频和视觉信息冲突时,音频信息容易被忽略。
  2. 该研究通过机制可解释性分析,揭示了AVLLM内部音频和视觉特征的演化和融合过程,以及视觉模态对音频模态的抑制现象。
  3. 研究发现AVLLM的音频行为很大程度上继承自其视觉-语言基础模型,表明模型对音频信息的学习和对齐不足。

📝 摘要(中文)

本文首次对视听大语言模型(AVLLM)进行了机制可解释性研究,分析了音频和视觉特征如何通过AVLLM的不同层演化和融合,最终产生文本输出。研究发现,尽管AVLLM在中间层编码了丰富的音频语义,但当音频与视觉信息冲突时,这些能力在最终文本生成中很大程度上未能体现。探针分析表明,有用的潜在音频信息是存在的,但更深层的融合层不成比例地偏向于视觉表征,从而抑制了音频线索。进一步追踪发现,这种不平衡源于训练:AVLLM的音频行为与其视觉-语言基础模型高度匹配,表明对音频监督的额外对齐有限。研究结果揭示了AVLLM中一种根本的模态偏见,并为多模态LLM如何整合音频和视觉提供了新的机制性见解。

🔬 方法详解

问题定义:现有的视听大语言模型(AVLLM)在处理多模态信息时,尤其是在音频和视觉信息存在冲突的情况下,音频信息往往无法有效地融入最终的文本生成结果中。这表明AVLLM可能存在模态偏见,即模型更倾向于依赖视觉信息,而忽略或抑制音频信息。现有方法缺乏对AVLLM内部机制的深入理解,无法解释这种模态偏见的产生原因和具体过程。

核心思路:本文的核心思路是通过机制可解释性分析,深入剖析AVLLM内部音频和视觉特征的演化和融合过程。通过探究不同层级的神经元对音频和视觉信息的响应,以及它们之间的相互作用,来揭示AVLLM如何整合多模态信息,并找出导致模态偏见的根本原因。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择一个典型的AVLLM作为研究对象;2) 设计一系列包含音频和视觉信息的测试用例,其中部分用例包含模态冲突;3) 使用探针技术,分析AVLLM不同层级的神经元对音频和视觉信息的响应;4) 通过比较不同层级神经元的激活模式,以及它们之间的相关性,来追踪音频和视觉特征的演化和融合过程;5) 分析AVLLM的训练数据和训练过程,以探究模态偏见的可能来源。

关键创新:本文最重要的技术创新点在于首次将机制可解释性方法应用于AVLLM的研究,从而能够深入了解AVLLM内部的运行机制。与传统的黑盒测试方法不同,本文能够揭示AVLLM如何处理音频和视觉信息,以及模态偏见产生的具体过程。

关键设计:研究中使用了多种探针技术,例如线性探针和上下文分解,来分析AVLLM不同层级的神经元对音频和视觉信息的响应。此外,研究还设计了一系列包含模态冲突的测试用例,以评估AVLLM在处理复杂多模态信息时的能力。研究者还分析了AVLLM的训练数据和训练过程,以探究模态偏见的可能来源,例如训练数据的分布不平衡,或者训练目标的设计不合理。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,尽管AVLLM在中间层编码了丰富的音频语义,但当音频与视觉信息冲突时,这些能力在最终文本生成中很大程度上未能体现。探针分析表明,有用的潜在音频信息是存在的,但更深层的融合层不成比例地偏向于视觉表征,从而抑制了音频线索。进一步的分析表明,AVLLM的音频行为与其视觉-语言基础模型高度匹配,表明对音频监督的额外对齐有限。

🎯 应用场景

该研究成果可应用于改进AVLLM的设计和训练,使其能够更有效地整合音频和视觉信息,从而提高其在语音识别、视频理解、人机交互等领域的性能。例如,可以设计新的训练方法,以增强AVLLM对音频信息的学习和对齐,或者调整网络结构,以减少视觉模态对音频模态的抑制。未来的研究还可以探索如何利用该研究成果来构建更加鲁棒和可靠的多模态人工智能系统。

📄 摘要(原文)

Audio-Visual Large Language Models (AVLLMs) are emerging as unified interfaces to multimodal perception. We present the first mechanistic interpretability study of AVLLMs, analyzing how audio and visual features evolve and fuse through different layers of an AVLLM to produce the final text outputs. We find that although AVLLMs encode rich audio semantics at intermediate layers, these capabilities largely fail to surface in the final text generation when audio conflicts with vision. Probing analyses show that useful latent audio information is present, but deeper fusion layers disproportionately privilege visual representations that tend to suppress audio cues. We further trace this imbalance to training: the AVLLM's audio behavior strongly matches its vision-language base model, indicating limited additional alignment to audio supervision. Our findings reveal a fundamental modality bias in AVLLMs and provide new mechanistic insights into how multimodal LLMs integrate audio and vision.