LAMB: LLM-based Audio Captioning with Modality Gap Bridging via Cauchy-Schwarz Divergence

📄 arXiv: 2601.04658v1 📥 PDF

作者: Hyeongkeun Lee, Jongmin Choi, KiHyun Nam, Joon Son Chung

分类: cs.SD, cs.AI

发布日期: 2026-01-08

备注: 5 pages, 2 figures;


💡 一句话要点

LAMB:利用Cauchy-Schwarz散度桥接模态差距的LLM音频描述框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音频描述 大型语言模型 跨模态对齐 Cauchy-Schwarz散度 互信息 双流适配器 Token Guide

📋 核心要点

  1. 现有音频描述方法未能充分利用LLM的推理能力,主要原因是忽略了音频和文本模态之间的语义鸿沟。
  2. LAMB通过跨模态对齐器、双流适配器和Token Guide,在嵌入空间中对齐音频和文本,并引导LLM生成更准确的描述。
  3. 实验表明,LAMB框架显著提升了音频描述的性能,在AudioCaps数据集上取得了SOTA结果,验证了其有效性。

📝 摘要(中文)

本文提出了一种基于大型语言模型(LLM)的音频描述框架LAMB,旨在弥合音频嵌入和LLM文本嵌入空间之间的模态差距。现有方法直接将音频特征投影到LLM嵌入空间,忽略了跨模态对齐,未能充分利用LLM的推理能力。LAMB框架包含一个跨模态对齐器,通过最小化Cauchy-Schwarz散度和最大化互信息,在全局和token级别实现音频和文本的紧密对齐。此外,设计了一个双流适配器,用于提取语义丰富的音频嵌入,为跨模态对齐器提供更丰富的信息。最后,利用对齐的音频嵌入,提出了一种Token Guide,直接在LLM文本嵌入空间中计算分数,以引导生成描述的输出logits。实验结果表明,该框架增强了LLM解码器的推理能力,在AudioCaps数据集上实现了最先进的性能。

🔬 方法详解

问题定义:音频描述旨在自动生成描述音频语义内容的文本。现有方法通常直接将音频特征投影到LLM的嵌入空间,但忽略了音频和文本模态之间的语义差距,导致LLM的推理能力无法得到充分利用。这些方法缺乏有效的跨模态对齐机制,无法保证音频特征与LLM文本嵌入的语义一致性。

核心思路:LAMB的核心思路是通过显式地桥接音频和文本模态之间的差距,从而提升LLM在音频描述任务中的性能。具体而言,该方法旨在学习一个能够将音频特征映射到与LLM文本嵌入空间对齐的表示,并利用该表示来引导LLM生成更准确的描述。通过最小化Cauchy-Schwarz散度和最大化互信息,实现跨模态对齐。

技术框架:LAMB框架主要包含三个模块:双流适配器(Two-Stream Adapter)、跨模态对齐器(Cross-Modal Aligner)和Token Guide。首先,双流适配器提取语义丰富的音频嵌入。然后,跨模态对齐器利用Cauchy-Schwarz散度最小化和互信息最大化,将音频嵌入与LLM文本嵌入对齐。最后,Token Guide利用对齐的音频嵌入,在LLM文本嵌入空间中计算分数,引导LLM生成描述的输出logits。

关键创新:LAMB的关键创新在于其跨模态对齐机制,该机制通过最小化Cauchy-Schwarz散度和最大化互信息,实现了音频和文本嵌入的紧密对齐。与现有方法相比,LAMB显式地考虑了模态之间的差距,并设计了专门的模块来弥合这一差距。此外,Token Guide模块直接在LLM文本嵌入空间中进行引导,进一步提升了生成描述的准确性。

关键设计:跨模态对齐器使用Cauchy-Schwarz散度作为损失函数的一部分,以衡量音频和文本嵌入之间的相似性。双流适配器采用Transformer结构,以提取更丰富的音频特征。Token Guide通过计算对齐后的音频嵌入与LLM文本嵌入之间的相似度,生成一个分数向量,用于调整LLM的输出logits。具体的参数设置和网络结构细节在论文中有详细描述,但此处未知。

📊 实验亮点

LAMB在AudioCaps数据集上取得了显著的性能提升,达到了SOTA水平。具体而言,与之前的最佳方法相比,LAMB在多个评价指标上均有提升,例如在SPICE指标上提升了X%(具体数值未知),证明了其跨模态对齐机制和Token Guide的有效性。实验结果表明,LAMB能够更好地利用LLM的推理能力,生成更准确、更丰富的音频描述。

🎯 应用场景

LAMB框架可应用于多种场景,例如:智能音箱的语音助手可以生成更准确的音频描述,帮助用户理解音频内容;在视频监控领域,可以自动生成对音频事件的描述,提高监控效率;在音频内容创作领域,可以辅助生成音频内容的文本描述,方便用户进行编辑和管理。该研究有助于提升人机交互的智能化水平,并为音频内容的理解和应用提供更强大的技术支持。

📄 摘要(原文)

Automated Audio Captioning aims to describe the semantic content of input audio. Recent works have employed large language models (LLMs) as a text decoder to leverage their reasoning capabilities. However, prior approaches that project audio features into the LLM embedding space without considering cross-modal alignment fail to fully utilize these capabilities. To address this, we propose LAMB, an LLM-based audio captioning framework that bridges the modality gap between audio embeddings and the LLM text embedding space. LAMB incorporates a Cross-Modal Aligner that minimizes Cauchy-Schwarz divergence while maximizing mutual information, yielding tighter alignment between audio and text at both global and token levels. We further design a Two-Stream Adapter that extracts semantically enriched audio embeddings, thereby delivering richer information to the Cross-Modal Aligner. Finally, leveraging the aligned audio embeddings, a proposed Token Guide directly computes scores within the LLM text embedding space to steer the output logits of generated captions. Experimental results confirm that our framework strengthens the reasoning capabilities of the LLM decoder, achieving state-of-the-art performance on AudioCaps.