AISTAT lab system for DCASE2025 Task6: Language-based audio retrieval
作者: Hyun Jun Kim, Hyeong Yong Choi, Changwon Lim
分类: cs.SD, cs.AI, eess.AS
发布日期: 2025-09-20
备注: 5 pages, 1 figure, DCASE2025 Task2 technical report
💡 一句话要点
AISTAT实验室提出基于双编码器和对比学习的语音检索系统,用于DCASE2025 Task6。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 音频检索 跨模态学习 对比学习 数据增强 大型语言模型 蒸馏训练 聚类 双编码器
📋 核心要点
- 现有音频检索方法在跨模态对齐和数据增强方面存在挑战,限制了检索性能。
- 该论文提出一种基于双编码器和对比学习的框架,利用LLM进行数据增强,并引入聚类辅助分类。
- 实验结果表明,该方法在Clotho数据集上取得了显著的mAP@16提升,单系统达到46.62,集成系统达到48.83。
📝 摘要(中文)
本报告介绍了AISTAT团队为DCASE 2025 Task 6中基于语言的音频检索任务提交的系统。我们提出的系统采用双编码器架构,其中音频和文本模态被分别编码,并通过对比学习对齐它们的表示。受到去年挑战赛方法论的启发,我们实施了一种蒸馏方法,并利用大型语言模型(LLM)进行有效的数据增强技术,包括回译和LLM混合。此外,我们还结合了聚类,引入了一个辅助分类任务以进行进一步的微调。我们的最佳单系统在Clotho开发测试集上实现了46.62的mAP@16,而四个系统的集成达到了48.83的mAP@16。
🔬 方法详解
问题定义:论文旨在解决基于文本描述的音频检索问题。现有方法在跨模态特征对齐方面存在不足,难以有效捕捉音频和文本之间的语义关联。此外,数据增强方法也存在局限性,难以生成高质量的训练数据。
核心思路:论文的核心思路是利用双编码器分别提取音频和文本的特征,并通过对比学习将它们映射到同一个语义空间,从而实现跨模态对齐。同时,利用大型语言模型进行数据增强,生成更多样化的训练数据,提高模型的泛化能力。引入聚类作为辅助任务,进一步提升特征的区分性。
技术框架:该系统采用双编码器架构,包括音频编码器和文本编码器。音频编码器负责提取音频的特征表示,文本编码器负责提取文本描述的特征表示。然后,通过对比学习损失函数,将音频和文本的特征向量拉近,从而实现跨模态对齐。此外,利用LLM进行数据增强,包括回译和LLM混合。最后,引入聚类作为辅助分类任务,进一步微调模型。
关键创新:该论文的关键创新在于:1) 利用大型语言模型进行数据增强,生成高质量的训练数据;2) 引入聚类作为辅助分类任务,提升特征的区分性;3) 将蒸馏方法应用于音频检索任务,提高模型的效率和性能。
关键设计:在数据增强方面,使用了回译和LLM混合等技术,以生成更多样化的文本描述。在对比学习方面,使用了InfoNCE损失函数,以最大化正样本之间的相似度,最小化负样本之间的相似度。在聚类方面,使用了K-means算法,将音频特征向量聚类成不同的簇,并将其作为辅助分类任务的目标。
📊 实验亮点
实验结果表明,该方法在Clotho数据集上取得了显著的性能提升。最佳单系统实现了46.62的mAP@16,而四个系统的集成达到了48.83的mAP@16。相较于基线系统,该方法在检索精度方面有明显优势,证明了所提出方法的有效性。
🎯 应用场景
该研究成果可应用于智能音箱、音乐检索、视频内容分析等领域。通过文本描述检索音频内容,可以提升用户体验,实现更智能化的信息检索。未来,该技术有望应用于更广泛的多模态信息检索场景,例如视频检索、图像检索等。
📄 摘要(原文)
This report presents the AISTAT team's submission to the language-based audio retrieval task in DCASE 2025 Task 6. Our proposed system employs dual encoder architecture, where audio and text modalities are encoded separately, and their representations are aligned using contrastive learning. Drawing inspiration from methodologies of the previous year's challenge, we implemented a distillation approach and leveraged large language models (LLMs) for effective data augmentation techniques, including back-translation and LLM mix. Additionally, we incorporated clustering to introduce an auxiliary classification task for further finetuning. Our best single system achieved a mAP@16 of 46.62, while an ensemble of four systems reached a mAP@16 of 48.83 on the Clotho development test split.