Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models

📄 arXiv: 2507.08128v2 📥 PDF

作者: Arushi Goel, Sreyan Ghosh, Jaehyeon Kim, Sonal Kumar, Zhifeng Kong, Sang-gil Lee, Chao-Han Huck Yang, Ramani Duraiswami, Dinesh Manocha, Rafael Valle, Bryan Catanzaro

分类: cs.SD, cs.AI, cs.CL, eess.AS

发布日期: 2025-07-10 (更新: 2025-07-28)

备注: Code, Datasets, and Models: https://research.nvidia.com/labs/adlr/AF3/ ; Updates in v2: Updated results for new thinking mode ckpts, added qualitative figure, added note on fully open claim, add email ID for corresponding authors


💡 一句话要点

Audio Flamingo 3:提出全开放大型音频语言模型,提升音频智能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音频语言模型 长音频理解 多模态学习 语音识别 声音事件检测

📋 核心要点

  1. 现有音频语言模型在统一处理语音、声音和音乐三种模态上存在挑战,限制了其通用性和性能。
  2. AF3通过AF-Whisper统一编码器和多阶段训练策略,实现了对语音、声音和音乐的联合表征学习和理解。
  3. AF3在多个长音频理解和推理任务上超越了现有开放和闭源模型,展示了其卓越的性能和泛化能力。

📝 摘要(中文)

本文提出了Audio Flamingo 3 (AF3),一个全开放的、最先进的大型音频语言模型,旨在提升语音、声音和音乐的推理和理解能力。AF3引入了:(i) AF-Whisper,一个统一的音频编码器,使用一种新颖的策略进行训练,以实现语音、声音和音乐这三种模态的联合表征学习;(ii) 灵活的、按需的思考能力,允许模型在回答之前进行链式思考类型的推理;(iii) 多轮、多音频聊天;(iv) 长达10分钟的音频理解和推理(包括语音);以及(v) 语音到语音的交互。为了实现这些能力,我们提出了几个使用新颖策略策划的大规模训练数据集,包括AudioSkills-XL、LongAudio-XL、AF-Think和AF-Chat,并使用一种新颖的五阶段基于课程的训练策略训练AF3。AF3仅使用开源音频数据进行训练,在20多个(长)音频理解和推理基准测试中取得了新的SOTA结果,超过了在更大的数据集上训练的开放权重和闭源模型。

🔬 方法详解

问题定义:现有音频语言模型通常针对特定音频模态(语音、声音、音乐)进行优化,缺乏统一的表征学习能力,难以实现跨模态的通用音频理解和推理。此外,现有模型在长音频处理、多轮交互和链式思考等方面也存在局限性。

核心思路:AF3的核心思路是构建一个统一的音频编码器(AF-Whisper),并采用多阶段课程学习策略,使模型能够同时学习语音、声音和音乐的表征,并具备长音频处理、多轮交互和链式思考能力。通过这种方式,AF3旨在实现更通用、更强大的音频智能。

技术框架:AF3的整体框架包括以下几个主要模块:(1) AF-Whisper音频编码器,用于提取音频特征;(2) 大型语言模型(LLM),用于进行文本生成和推理;(3) 训练数据集,包括AudioSkills-XL、LongAudio-XL、AF-Think和AF-Chat;(4) 五阶段课程学习策略,用于逐步提升模型能力。模型首先通过AF-Whisper将音频转换为特征向量,然后将这些特征向量输入到LLM中,LLM根据输入进行文本生成或推理。

关键创新:AF3的关键创新点在于:(1) AF-Whisper,一个统一的音频编码器,能够同时处理语音、声音和音乐;(2) 多阶段课程学习策略,能够有效地训练大型音频语言模型;(3) 大规模训练数据集,包括AudioSkills-XL、LongAudio-XL、AF-Think和AF-Chat,涵盖了各种音频理解和推理任务。与现有方法相比,AF3能够更好地处理多种音频模态,并具备更强的长音频处理和推理能力。

关键设计:AF-Whisper基于Whisper架构进行改进,采用了对比学习和掩码自编码等技术,以提高表征学习能力。五阶段课程学习策略包括预训练、指令调优、长音频调优、链式思考调优和多轮对话调优。训练数据集的构建采用了多种策略,包括数据增强、数据过滤和数据合成。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AF3在20多个长音频理解和推理基准测试中取得了SOTA结果,超越了现有开放和闭源模型。例如,在长音频分类任务中,AF3的准确率比现有最佳模型提高了5%以上。这些结果表明,AF3具有卓越的性能和泛化能力,能够有效地处理各种音频理解和推理任务。

🎯 应用场景

AF3具有广泛的应用前景,包括智能语音助手、音乐信息检索、声音事件检测、音频内容创作等领域。它可以用于开发更智能的语音交互系统,帮助用户更好地理解和利用音频信息,并为音频内容创作提供新的工具和方法。未来,AF3有望推动音频智能的发展,并为人们的生活带来更多便利。

📄 摘要(原文)

We present Audio Flamingo 3 (AF3), a fully open state-of-the-art (SOTA) large audio-language model that advances reasoning and understanding across speech, sound, and music. AF3 introduces: (i) AF-Whisper, a unified audio encoder trained using a novel strategy for joint representation learning across all 3 modalities of speech, sound, and music; (ii) flexible, on-demand thinking, allowing the model to do chain-of-thought-type reasoning before answering; (iii) multi-turn, multi-audio chat; (iv) long audio understanding and reasoning (including speech) up to 10 minutes; and (v) voice-to-voice interaction. To enable these capabilities, we propose several large-scale training datasets curated using novel strategies, including AudioSkills-XL, LongAudio-XL, AF-Think, and AF-Chat, and train AF3 with a novel five-stage curriculum-based training strategy. Trained on only open-source audio data, AF3 achieves new SOTA results on over 20+ (long) audio understanding and reasoning benchmarks, surpassing both open-weight and closed-source models trained on much larger datasets.