LAMB: LLM-based Audio Captioning with Modality Gap Bridging via Cauchy-Schwarz Divergence

📄 arXiv: 2601.04658v1 📥 PDF

作者: Hyeongkeun Lee, Jongmin Choi, KiHyun Nam, Joon Son Chung

分类: cs.SD, cs.AI

发布日期: 2026-01-08

备注: 5 pages, 2 figures;


💡 一句话要点

LAMB:通过柯西-施瓦茨散度桥接模态鸿沟的LLM音频描述框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音频描述 大型语言模型 跨模态对齐 柯西-施瓦茨散度 互信息 双流适配器 Token Guide 多模态学习

📋 核心要点

  1. 现有音频描述方法未能充分利用LLM的推理能力,主要原因是忽略了音频和文本模态之间的语义鸿沟。
  2. LAMB框架通过跨模态对齐器、双流适配器和Token Guide,实现了音频和文本嵌入的有效对齐和信息融合。
  3. 实验结果表明,LAMB框架显著提升了音频描述的性能,在AudioCaps数据集上取得了SOTA结果。

📝 摘要(中文)

本文提出了一种基于大型语言模型(LLM)的音频描述框架LAMB,旨在弥合音频嵌入和LLM文本嵌入空间之间的模态差距。现有方法通常直接将音频特征投影到LLM嵌入空间,而忽略了跨模态对齐,未能充分利用LLM的推理能力。LAMB框架包含一个跨模态对齐器,通过最小化柯西-施瓦茨散度和最大化互信息,在全局和token级别实现音频和文本的紧密对齐。此外,设计了一个双流适配器,用于提取语义丰富的音频嵌入,为跨模态对齐器提供更丰富的信息。最后,利用对齐的音频嵌入,提出了一种Token Guide,直接在LLM文本嵌入空间中计算分数,以引导生成描述的输出logits。实验结果表明,该框架增强了LLM解码器的推理能力,在AudioCaps数据集上实现了最先进的性能。

🔬 方法详解

问题定义:自动音频描述旨在根据输入音频生成语义描述。现有方法直接将音频特征投影到LLM的嵌入空间,忽略了音频和文本模态之间的差异,导致LLM的推理能力无法充分发挥。这些方法缺乏有效的跨模态对齐机制,无法捕捉音频和文本之间的细粒度关联。

核心思路:LAMB的核心思路是通过跨模态对齐来弥合音频和文本之间的模态差距,从而增强LLM的推理能力。具体来说,通过最小化柯西-施瓦茨散度和最大化互信息,实现音频和文本嵌入的对齐。同时,利用双流适配器提取更丰富的音频语义信息,并使用Token Guide引导LLM的生成过程。

技术框架:LAMB框架主要包含三个模块:双流适配器(Two-Stream Adapter)、跨模态对齐器(Cross-Modal Aligner)和Token Guide。首先,双流适配器提取语义丰富的音频嵌入。然后,跨模态对齐器利用柯西-施瓦茨散度最小化和互信息最大化,对齐音频和文本嵌入。最后,Token Guide利用对齐的音频嵌入,在LLM文本嵌入空间中计算分数,引导生成描述的输出logits。

关键创新:LAMB的关键创新在于提出了一个基于柯西-施瓦茨散度的跨模态对齐器,能够有效地对齐音频和文本嵌入。与现有方法相比,LAMB更加注重模态之间的对齐,从而更好地利用了LLM的推理能力。此外,双流适配器和Token Guide的设计也进一步提升了框架的性能。

关键设计:跨模态对齐器使用柯西-施瓦茨散度作为对齐的度量标准,并结合互信息最大化,以实现更紧密的对齐。双流适配器包含两个分支,分别提取全局和局部音频特征。Token Guide通过计算音频嵌入和LLM文本嵌入之间的相似度,引导生成过程。具体的损失函数包括柯西-施瓦茨散度损失、互信息损失和交叉熵损失。

📊 实验亮点

实验结果表明,LAMB框架在AudioCaps数据集上取得了显著的性能提升,超越了现有的SOTA方法。具体来说,LAMB在SPICE指标上取得了显著提升,表明其生成的描述更准确、更全面。此外,消融实验验证了各个模块的有效性,证明了跨模态对齐、双流适配器和Token Guide对性能提升的贡献。

🎯 应用场景

LAMB框架可应用于多种场景,例如:智能音箱的语音助手功能,能够更准确地理解用户的语音指令并生成相应的回复;视频内容分析,自动生成视频的音频描述,方便用户快速了解视频内容;以及辅助听力障碍人士理解音频信息等。该研究有助于提升人机交互的智能化水平,并为多媒体内容理解提供更有效的解决方案。

📄 摘要(原文)

Automated Audio Captioning aims to describe the semantic content of input audio. Recent works have employed large language models (LLMs) as a text decoder to leverage their reasoning capabilities. However, prior approaches that project audio features into the LLM embedding space without considering cross-modal alignment fail to fully utilize these capabilities. To address this, we propose LAMB, an LLM-based audio captioning framework that bridges the modality gap between audio embeddings and the LLM text embedding space. LAMB incorporates a Cross-Modal Aligner that minimizes Cauchy-Schwarz divergence while maximizing mutual information, yielding tighter alignment between audio and text at both global and token levels. We further design a Two-Stream Adapter that extracts semantically enriched audio embeddings, thereby delivering richer information to the Cross-Modal Aligner. Finally, leveraging the aligned audio embeddings, a proposed Token Guide directly computes scores within the LLM text embedding space to steer the output logits of generated captions. Experimental results confirm that our framework strengthens the reasoning capabilities of the LLM decoder, achieving state-of-the-art performance on AudioCaps.