AISTAT lab system for DCASE2025 Task6: Language-based audio retrieval
作者: Hyun Jun Kim, Hyeong Yong Choi, Changwon Lim
分类: cs.SD, cs.AI, eess.AS
发布日期: 2025-09-20
备注: 5 pages, 1 figure, DCASE2025 Task2 technical report
💡 一句话要点
AISTAT实验室针对DCASE2025 Task6提出基于语言的音频检索双编码器系统。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 音频检索 语言理解 双编码器 对比学习 数据增强 大型语言模型 蒸馏训练
📋 核心要点
- 现有音频检索方法在跨模态对齐和数据增强方面存在不足,限制了检索性能。
- 该论文提出一种基于双编码器架构的音频检索系统,利用对比学习对齐音频和文本表示。
- 实验结果表明,该系统通过蒸馏、LLM数据增强和聚类辅助微调,显著提升了检索精度。
📝 摘要(中文)
本报告介绍了AISTAT团队为DCASE 2025 Task 6中基于语言的音频检索任务提交的系统。我们提出的系统采用双编码器架构,其中音频和文本模态被分别编码,并通过对比学习对齐它们的表示。受到去年挑战赛方法论的启发,我们实施了一种蒸馏方法,并利用大型语言模型(LLM)进行有效的数据增强技术,包括回译和LLM混合。此外,我们还结合了聚类,引入了一个辅助分类任务以进行进一步的微调。我们的最佳单系统在Clotho开发测试集上实现了46.62的mAP@16,而四个系统的集成达到了48.83的mAP@16。
🔬 方法详解
问题定义:该论文旨在解决基于语言描述的音频检索问题。现有方法在处理音频和文本之间的语义鸿沟,以及有效利用有限的训练数据方面存在挑战。痛点在于如何更好地学习音频和文本的联合表示,并提升模型的泛化能力。
核心思路:论文的核心思路是利用双编码器架构分别提取音频和文本的特征,然后通过对比学习将这两种模态的特征映射到同一个语义空间。通过拉近匹配的音频-文本对的距离,推远不匹配的音频-文本对的距离,从而学习到更好的跨模态表示。
技术框架:该系统主要包含以下几个模块:1) 音频编码器:用于提取音频特征;2) 文本编码器:用于提取文本特征;3) 对比学习模块:用于对齐音频和文本的表示;4) 蒸馏模块:用于将大型模型的知识迁移到小型模型;5) 数据增强模块:利用LLM进行回译和LLM混合,增加训练数据的多样性;6) 聚类模块:引入辅助分类任务,进一步微调模型。
关键创新:该论文的关键创新在于:1) 结合了蒸馏和LLM数据增强技术,有效提升了模型的性能;2) 引入聚类作为辅助任务,进一步优化了模型的表示学习;3) 采用了双编码器架构和对比学习方法,实现了音频和文本的有效对齐。
关键设计:在数据增强方面,使用了回译和LLM混合等技术,增加了数据的多样性。在损失函数方面,使用了对比损失函数,用于拉近匹配的音频-文本对的距离,推远不匹配的音频-文本对的距离。在网络结构方面,采用了双编码器架构,分别提取音频和文本的特征。具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
该系统在Clotho开发测试集上取得了显著的性能提升。最佳单系统达到了46.62的mAP@16,而四个系统的集成更是达到了48.83的mAP@16。这些结果表明,该论文提出的方法在基于语言的音频检索任务中具有很强的竞争力。
🎯 应用场景
该研究成果可应用于智能音箱、音乐检索、视频内容分析等领域。通过理解用户输入的自然语言描述,系统能够准确地检索到相关的音频内容,提升用户体验。未来,该技术有望在语音助手、智能家居等场景中发挥更大的作用。
📄 摘要(原文)
This report presents the AISTAT team's submission to the language-based audio retrieval task in DCASE 2025 Task 6. Our proposed system employs dual encoder architecture, where audio and text modalities are encoded separately, and their representations are aligned using contrastive learning. Drawing inspiration from methodologies of the previous year's challenge, we implemented a distillation approach and leveraged large language models (LLMs) for effective data augmentation techniques, including back-translation and LLM mix. Additionally, we incorporated clustering to introduce an auxiliary classification task for further finetuning. Our best single system achieved a mAP@16 of 46.62, while an ensemble of four systems reached a mAP@16 of 48.83 on the Clotho development test split.