DeSTA2.5-Audio: Toward General-Purpose Large Audio Language Model with Self-Generated Cross-Modal Alignment

📄 arXiv: 2507.02768v1 📥 PDF

作者: Ke-Han Lu, Zhehuai Chen, Szu-Wei Fu, Chao-Han Huck Yang, Sung-Feng Huang, Chih-Kai Yang, Chee-En Yu, Chun-Wei Chen, Wei-Chih Chen, Chien-yu Huang, Yi-Cheng Lin, Yu-Xiang Lin, Chi-An Fu, Chun-Yi Kuan, Wenze Ren, Xuanjun Chen, Wei-Ping Huang, En-Pei Hu, Tzu-Quan Lin, Yuan-Kuei Wu, Kuan-Po Huang, Hsiao-Ying Huang, Huang-Cheng Chou, Kai-Wei Chang, Cheng-Han Chiang, Boris Ginsburg, Yu-Chiang Frank Wang, Hung-yi Lee

分类: eess.AS, cs.CL, cs.SD

发布日期: 2025-07-03

备注: Model and code available at: https://github.com/kehanlu/DeSTA2.5-Audio


💡 一句话要点

DeSTA2.5-Audio:通过自生成跨模态对齐实现通用大型音频语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型音频语言模型 跨模态对齐 自监督学习 零样本学习 音频理解 指令跟随 数据增强

📋 核心要点

  1. 现有LALM依赖人工标注或LLM合成数据,但易导致LLM原始语言能力的灾难性遗忘。
  2. 论文提出DeSTA自生成跨模态对齐策略,利用LLM自身生成训练目标,保持语言能力。
  3. DeSTA2.5-Audio在多个音频语言基准测试中达到SOTA或具有竞争力的性能,验证有效性。

📝 摘要(中文)

本文介绍了DeSTA2.5-Audio,一种通用的大型音频语言模型(LALM),旨在实现强大的听觉感知和指令跟随,而无需特定任务的音频指令微调。现有LALM通常通过在大型、人工策划或LLM合成的音频指令数据集上训练来增强大型语言模型(LLM)的听觉能力。然而,这些方法常常遭受LLM原始语言能力的灾难性遗忘。为了解决这个问题,我们重新审视了数据构建流程,并提出了DeSTA,一种自生成的跨模态对齐策略,其中骨干LLM生成自己的训练目标。这种方法在建立有效的音频-文本对齐的同时,保留了LLM的原始语言能力,从而无需特定任务的微调即可实现零样本泛化。使用DeSTA,我们构建了DeSTA-AQA5M,一个大规模、任务无关的数据集,包含来自7000小时音频的500万个训练样本,涵盖语音、环境声音和音乐等多种类型。DeSTA2.5-Audio在包括Dynamic-SUPERB、MMAU、SAKURA、Speech-IFEval和VoiceBench在内的各种音频语言基准测试中实现了最先进或具有竞争力的性能。全面的对比研究表明,我们的自生成策略在听觉感知和指令跟随能力方面均优于广泛采用的数据构建和训练策略。我们的研究结果强调了精心设计的数据构建在LALM开发中的重要性,并为构建鲁棒的通用LALM提供了实践见解。

🔬 方法详解

问题定义:现有的大型音频语言模型(LALM)通常依赖于人工标注或大型语言模型(LLM)合成的音频-指令数据集进行训练。这种方法虽然能够赋予LLM听觉能力,但往往会导致LLM原始语言能力的灾难性遗忘,限制了模型的通用性和泛化能力。因此,如何构建一个既能有效对齐音频和文本信息,又能保留LLM原有语言能力的数据集,是当前LALM研究面临的关键问题。

核心思路:论文的核心思路是提出一种自生成的跨模态对齐策略(DeSTA)。该策略不再依赖于外部标注或合成数据,而是利用LLM自身生成训练目标。具体来说,给定一段音频,LLM根据音频内容生成相应的文本描述或指令,从而实现音频和文本的对齐。这种自生成的方式可以有效避免LLM原始语言能力的遗忘,并提高模型的泛化能力。

技术框架:DeSTA2.5-Audio的整体框架包括以下几个主要阶段:1) 音频编码:使用预训练的音频编码器(如HuBERT或Wav2Vec 2.0)将原始音频转换为高维特征表示。2) 文本编码:使用预训练的LLM(如LLaMA或GPT)将文本描述或指令转换为文本特征表示。3) 跨模态对齐:利用DeSTA策略,LLM根据音频特征生成相应的文本描述或指令,并将生成的文本特征与原始音频特征进行对齐。4) 模型训练:使用对比学习或生成式学习等方法,训练模型学习音频和文本之间的对应关系。

关键创新:论文最重要的技术创新点在于DeSTA自生成跨模态对齐策略。与传统的依赖外部标注或合成数据的方法相比,DeSTA能够利用LLM自身的能力生成训练目标,从而避免LLM原始语言能力的遗忘,并提高模型的泛化能力。此外,DeSTA还能够灵活地适应不同的音频类型和任务,具有很强的通用性。

关键设计:在DeSTA策略中,一个关键的设计是使用LLM生成高质量的文本描述或指令。为了实现这一目标,论文采用了多种技术手段,包括:1) 使用高质量的预训练LLM作为骨干模型。2) 引入prompt engineering技术,引导LLM生成更准确、更丰富的文本描述。3) 使用数据增强技术,增加训练数据的多样性。此外,论文还探索了不同的损失函数和网络结构,以优化模型的训练效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DeSTA2.5-Audio在多个音频语言基准测试中取得了显著成果。例如,在Dynamic-SUPERB基准测试中,DeSTA2.5-Audio的性能超过了现有SOTA模型。在MMAU、SAKURA、Speech-IFEval和VoiceBench等基准测试中,DeSTA2.5-Audio也取得了具有竞争力的性能,证明了其在听觉感知和指令跟随方面的优越能力。

🎯 应用场景

DeSTA2.5-Audio具有广泛的应用前景,可应用于语音识别、语音合成、音乐理解、环境声音识别等领域。该模型能够理解音频内容并执行相应的指令,例如根据语音指令播放音乐、识别环境声音并发出警报等。未来,DeSTA2.5-Audio有望成为智能助手、智能家居、自动驾驶等领域的核心技术。

📄 摘要(原文)

We introduce DeSTA2.5-Audio, a general-purpose Large Audio Language Model (LALM) designed for robust auditory perception and instruction-following, without requiring task-specific audio instruction-tuning. Recent LALMs typically augment Large Language Models (LLMs) with auditory capabilities by training on large-scale, manually curated or LLM-synthesized audio-instruction datasets. However, these approaches have often suffered from the catastrophic forgetting of the LLM's original language abilities. To address this, we revisit the data construction pipeline and propose DeSTA, a self-generated cross-modal alignment strategy in which the backbone LLM generates its own training targets. This approach preserves the LLM's native language proficiency while establishing effective audio-text alignment, thereby enabling zero-shot generalization without task-specific tuning. Using DeSTA, we construct DeSTA-AQA5M, a large-scale, task-agnostic dataset containing 5 million training samples derived from 7,000 hours of audio spanning 50 diverse datasets, including speech, environmental sounds, and music. DeSTA2.5-Audio achieves state-of-the-art or competitive performance across a wide range of audio-language benchmarks, including Dynamic-SUPERB, MMAU, SAKURA, Speech-IFEval, and VoiceBench. Comprehensive comparative studies demonstrate that our self-generated strategy outperforms widely adopted data construction and training strategies in both auditory perception and instruction-following capabilities. Our findings underscore the importance of carefully designed data construction in LALM development and offer practical insights for building robust, general-purpose LALMs.