Probing Cross-modal Information Hubs in Audio-Visual LLMs
作者: Jihoo Jung, Chaeyoung Jung, Ji-Hoon Kim, Joon Son Chung
分类: cs.AI, eess.AS
发布日期: 2026-05-11
备注: Accepted by ICML 2026
🔗 代码/项目: GITHUB
💡 一句话要点
揭示音视频大模型中的跨模态信息枢纽,并提出无需训练的幻觉缓解策略
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 音视频大模型 跨模态学习 模型可解释性 幻觉缓解 多模态融合 Token分析
📋 核心要点
- 现有音视频大模型(AVLLMs)缺乏对其内部跨模态交互机制的深入理解,导致其在处理复杂多模态推理时存在不可解释性。
- 论文通过分析发现模型内部存在专门存储跨模态信息的“跨模态汇聚Token”,并据此提出了一种无需额外训练的幻觉缓解策略。
- 实验表明,通过引导模型关注这些关键的跨模态汇聚Token,能够有效降低模型在多模态任务中的幻觉现象,提升推理可靠性。
📝 摘要(中文)
音视频大模型(AVLLMs)作为一种能够对音频、视觉和文本模态进行联合推理的强大架构,近期备受关注。在AVLLMs中,音频与视频模态之间的双向交互引入了复杂的处理动力学,亟需对其内部机制进行深入理解。然而,与已得到广泛研究的纯文本或视觉语言模型不同,AVLLMs的内部工作原理在很大程度上仍未被探索。本文聚焦于AVLLMs中音频与视觉模态之间的跨模态信息流,探究源自一种模态的信息如何在另一种模态的Token表示中进行编码。通过对多个近期AVLLMs的分析,我们发现了两个共同点:首先,AVLLMs主要在“汇聚Token”(sink tokens)中编码整合后的音视频信息;其次,这些汇聚Token并非均匀地承载跨模态信息,而是存在一个特定的子集,即“跨模态汇聚Token”,专门用于存储此类信息。基于这些发现,我们进一步提出了一种无需训练的幻觉缓解方法,通过鼓励模型依赖跨模态汇聚Token中的整合信息来提升推理准确性。
🔬 方法详解
问题定义:AVLLMs内部的跨模态信息流向机制尚不明确,尤其是音频和视觉信息如何在彼此的Token表示中进行编码,以及模型如何处理这些复杂的模态交互,目前缺乏系统性的分析与解释。
核心思路:论文通过探针技术(Probing)分析模型内部的Token表示,发现模型倾向于将跨模态信息汇聚在特定的Token(即Sink Tokens)中。通过识别这些关键的“跨模态汇聚Token”,可以定位模型进行多模态推理的“信息枢纽”。
技术框架:研究首先对多个主流AVLLM架构进行内部表示分析,识别出Sink Tokens的分布规律;随后通过对比实验验证这些Token在跨模态信息传递中的作用;最后设计了一种推理阶段的干预机制,通过加权或引导机制增强模型对这些关键Token的注意力。
关键创新:首次定义并识别了AVLLM中的“跨模态汇聚Token”,揭示了模型内部信息整合的非均匀分布特性,并提出了一种无需微调即可缓解幻觉的推理干预方法。
关键设计:该方法通过在推理过程中识别并强化跨模态汇聚Token的权重,迫使模型在生成回答时更多地依赖已整合的音视频特征,从而减少因模态信息缺失或冲突导致的幻觉生成。
🖼️ 关键图片
📊 实验亮点
研究通过对多个前沿AVLLM模型进行实证分析,明确了跨模态信息在Sink Tokens中的分布规律。实验结果显示,通过所提的无需训练干预策略,模型在处理音视频冲突或复杂推理任务时,幻觉率得到显著降低,证明了跨模态汇聚Token在模型决策过程中的核心枢纽作用。
🎯 应用场景
该研究成果可广泛应用于视频理解、多模态对话系统及自动驾驶等领域。通过提升AVLLMs对音视频一致性信息的利用率,该方法能显著增强模型在复杂场景下的鲁棒性,减少因模态对齐偏差导致的错误输出,为构建更可信的多模态AI系统提供理论与技术支撑。
📄 摘要(原文)
Audio-visual large language models (AVLLMs) have recently emerged as a powerful architecture capable of jointly reasoning over audio, visual, and textual modalities. In AVLLMs, the bidirectional interaction between audio and video modalities introduces intricate processing dynamics, necessitating a deeper understanding of their internal mechanisms. However, unlike extensively studied text-only or large vision language models, the internal workings of AVLLMs remain largely unexplored. In this paper, we focus on cross-modal information flow between audio and visual modalities in AVLLMs, investigating where information derived from one modality is encoded within the token representations of the other modality. Through an analysis of multiple recent AVLLMs, we uncover two common findings. First, AVLLMs primarily encode integrated audio-visual information in sink tokens. Second, sink tokens do not uniformly hold cross-modal information. Instead, a distinct subset of sink tokens, which we term cross-modal sink tokens, specializes in storing such information. Based on these findings, we further propose a simple training-free hallucination mitigation method by encouraging reliance on integrated cross-modal information within cross-modal sink tokens. Our code is available at https://github.com/kaistmm/crossmodal-hub.