Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models

📄 arXiv: 2505.20873v2 📥 PDF

作者: Chaeyoung Jung, Youngjoon Jang, Jongmin Choi, Joon Son Chung

分类: cs.CV

发布日期: 2025-05-27 (更新: 2025-09-30)


💡 一句话要点

提出Fork-Merge解码以解决音视频大语言模型的模态偏差问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态理解 音视频模型 模态偏差 推理策略 深度学习 自然语言处理 音频处理 视频分析

📋 核心要点

  1. 现有的音视频大语言模型在解码过程中通常会引入模态偏差,导致模型对某一模态的过度依赖。
  2. 论文提出的Fork-Merge解码策略通过在推理时分叉处理音频和视频输入,随后合并结果,来平衡模态贡献。
  3. 实验结果表明,该方法在多个音频、视频和音视频推理任务上均表现出显著的性能提升,验证了其有效性。

📝 摘要(中文)

本研究旨在通过解决模态偏差来增强音视频大语言模型(AV-LLMs)的平衡多模态理解,而无需额外训练。当前的AV-LLMs通常在解码器中联合处理音频和视频特征,这虽然促进了统一的多模态理解,但可能导致模态偏差,使模型过度依赖某一模态。为此,我们提出了Fork-Merge解码(FMD),这是一种简单而有效的推理时策略,无需额外训练或架构修改。FMD首先通过早期解码器层分别处理音频和视频输入(分叉),然后在剩余层中合并结果的隐藏状态以进行联合推理(合并)。这种分离允许在早期阶段强调每种模态,同时在整合时鼓励平衡贡献。我们在三个代表性的AV-LLMs上验证了该方法,实验结果显示在音频、视频和音视频推理任务中均取得了一致的提升,突显了推理时干预在稳健高效的多模态理解中的有效性。

🔬 方法详解

问题定义:本论文旨在解决音视频大语言模型在解码过程中出现的模态偏差问题。现有方法通常在解码器中联合处理音频和视频特征,导致模型可能过度依赖某一模态,影响多模态理解的平衡性。

核心思路:论文提出的Fork-Merge解码(FMD)策略通过在推理阶段分叉处理音频和视频输入,分别进行模态特定的推理,随后再合并结果,以实现更均衡的多模态理解。这种设计允许每种模态在早期阶段得到强调,同时在整合时促进平衡贡献。

技术框架:FMD的整体架构包括两个主要阶段:首先是分叉阶段,在此阶段音频和视频输入分别通过早期解码器层进行处理;其次是合并阶段,将分叉阶段得到的隐藏状态合并,以进行联合推理。这一过程无需额外的训练或架构修改。

关键创新:FMD的最重要创新在于其推理时的干预策略,通过分叉和合并的方式有效地减轻了模态偏差,与现有方法相比,提供了一种更灵活且高效的解决方案。

关键设计:在FMD中,关键设计包括如何选择分叉的层数和合并的策略,确保每种模态在推理过程中的贡献得到合理的平衡。此外,模型的损失函数和训练过程也经过精心设计,以支持这一新的推理策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,Fork-Merge解码在音频、视频和音视频推理任务上均取得了显著提升。在使用VideoLLaMA2、video-SALMONN和Qwen2.5-Omni等三个代表性AV-LLMs的实验中,模型在各项任务上的性能均有明显改善,验证了该方法的有效性和实用性。

🎯 应用场景

该研究的潜在应用领域包括多模态信息检索、视频理解、智能助手等。通过提升音视频大语言模型的多模态理解能力,FMD能够在实际应用中提供更准确的语义理解和信息处理,推动相关技术的发展和应用。未来,随着多模态数据的不断增加,该方法可能会在更多领域展现出其价值。

📄 摘要(原文)

The goal of this work is to enhance balanced multimodal understanding in audio-visual large language models (AV-LLMs) by addressing modality bias without additional training. In current AV-LLMs, audio and video features are typically processed jointly in the decoder. While this strategy facilitates unified multimodal understanding, it may introduce modality bias, where the model tends to over-rely on one modality due to imbalanced training signals. To mitigate this, we propose Fork-Merge Decoding (FMD), a simple yet effective inference-time strategy that requires no additional training or architectural modifications. FMD first performs modality-specific reasoning by processing audio-only and video-only inputs through the early decoder layers (fork), and then merges the resulting hidden states for joint reasoning in the remaining layers (merge). This separation allows each modality to be emphasized in the early stages while encouraging balanced contributions during integration. We validate our method on three representative AV-LLMs-VideoLLaMA2, video-SALMONN, and Qwen2.5-Omni-using three benchmark datasets. Experimental results show consistent gains in audio, video, and audio-visual reasoning tasks, highlighting the effectiveness of inference-time interventions for robust and efficient multimodal understanding.