Enhancing Automated Audio Captioning via Large Language Models with Optimized Audio Encoding

📄 arXiv: 2406.13275v2 📥 PDF

作者: Jizhong Liu, Gang Li, Junbo Zhang, Heinrich Dinkel, Yongqing Wang, Zhiyong Yan, Yujun Wang, Bin Wang

分类: cs.SD, cs.CL, eess.AS

发布日期: 2024-06-19 (更新: 2024-06-25)

备注: Accepted by Interspeech 2024


💡 一句话要点

利用优化音频编码和大型语言模型增强自动音频字幕生成

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动音频字幕 大型语言模型 音频编码 一致性蒸馏 查询Transformer

📋 核心要点

  1. 现有自动音频字幕生成方法在处理复杂音频内容时,难以有效提取和利用音频特征。
  2. 论文提出一种基于一致性集成蒸馏预训练音频编码器,并结合查询Transformer和大型语言模型的方法。
  3. 实验结果表明,该方法在SPIDEr-FL指标上取得了显著提升,超越了DCASE 2023比赛的冠军方案。

📝 摘要(中文)

本文探讨了如何利用大型语言模型(LLM)增强自动音频字幕生成(AAC)任务。通过改进音频编码器的训练方法,提升了AAC的性能。具体而言,本文从三个方面进行了增强:1) 使用一致性集成蒸馏(CED)预训练音频编码器,以提高声学token的有效性,并使用查询Transformer(Q-Former)桥接模态差距并压缩声学token;2) 研究了使用具有70亿参数的Llama 2作为解码器的优势;3) 另一个预训练的LLM纠正了由训练数据不足和标注模糊引起的文本错误。音频编码器和文本解码器均通过低秩适应(LoRA)进行优化。实验表明,这些增强方法均有效。本文方法获得了33.0的SPIDEr-FL评分,优于DCASE 2023 Task 6A的获胜者。

🔬 方法详解

问题定义:自动音频字幕生成(AAC)旨在用自然语言描述音频内容。现有方法在音频特征提取和模态对齐方面存在不足,导致生成的字幕质量不高。训练数据不足和标注模糊也会导致文本错误。

核心思路:论文的核心思路是利用预训练的音频编码器和大型语言模型(LLM)的强大能力,通过优化音频编码和文本解码过程来提升AAC的性能。通过一致性集成蒸馏(CED)提高音频编码器的效果,并使用查询Transformer(Q-Former)桥接音频和文本模态之间的差距。

技术框架:整体框架包括三个主要模块:1) 基于CED预训练的音频编码器,用于提取音频特征;2) 查询Transformer(Q-Former),用于压缩音频token并与LLM对齐;3) 大型语言模型(Llama 2),作为解码器生成文本字幕。此外,还使用另一个预训练的LLM来纠正文本错误。整个框架通过低秩适应(LoRA)进行优化。

关键创新:论文的关键创新在于:1) 使用一致性集成蒸馏(CED)预训练音频编码器,提高了音频特征的质量;2) 使用查询Transformer(Q-Former)有效地桥接了音频和文本模态之间的差距;3) 利用大型语言模型(LLM)进行文本生成和错误纠正。

关键设计:音频编码器使用预训练模型,并通过CED进行微调。Q-Former使用Transformer结构,通过查询向量与音频token进行交互,提取关键信息。Llama 2作为解码器,利用其强大的语言建模能力生成字幕。LoRA用于优化音频编码器和文本解码器,减少训练参数。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,该方法在自动音频字幕生成任务上取得了显著提升,SPIDEr-FL评分达到33.0,超越了DCASE 2023 Task 6A的冠军方案。这证明了所提出的音频编码优化和LLM结合策略的有效性。

🎯 应用场景

该研究成果可应用于智能音箱、语音助手、视频内容理解等领域,帮助机器更好地理解音频内容,并生成准确、自然的描述。未来,该技术有望在无障碍辅助、内容检索和智能推荐等方面发挥重要作用。

📄 摘要(原文)

Automated audio captioning (AAC) is an audio-to-text task to describe audio contents in natural language. Recently, the advancements in large language models (LLMs), with improvements in training approaches for audio encoders, have opened up possibilities for improving AAC. Thus, we explore enhancing AAC from three aspects: 1) a pre-trained audio encoder via consistent ensemble distillation (CED) is used to improve the effectivity of acoustic tokens, with a querying transformer (Q-Former) bridging the modality gap to LLM and compress acoustic tokens; 2) we investigate the advantages of using a Llama 2 with 7B parameters as the decoder; 3) another pre-trained LLM corrects text errors caused by insufficient training data and annotation ambiguities. Both the audio encoder and text decoder are optimized by low-rank adaptation (LoRA). Experiments show that each of these enhancements is effective. Our method obtains a 33.0 SPIDEr-FL score, outperforming the winner of DCASE 2023 Task 6A.