Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models

作者: Arushi Goel, Sreyan Ghosh, Jaehyeon Kim, Sonal Kumar, Zhifeng Kong, Sang-gil Lee, Chao-Han Huck Yang, Ramani Duraiswami, Dinesh Manocha, Rafael Valle, Bryan Catanzaro

分类: cs.SD, cs.AI, cs.CL, eess.AS

发布日期: 2025-07-10 (更新: 2025-07-28)

备注: Code, Datasets, and Models: https://research.nvidia.com/labs/adlr/AF3/ ; Updates in v2: Updated results for new thinking mode ckpts, added qualitative figure, added note on fully open claim, add email ID for corresponding authors

💡 一句话要点

Audio Flamingo 3：提出全开放大型音频语言模型，提升音频智能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 音频语言模型 长音频理解 多模态学习 语音识别 声音事件检测

📋 核心要点

现有音频语言模型在统一处理语音、声音和音乐三种模态上存在挑战，限制了其通用性和性能。
AF3通过AF-Whisper统一编码器和多阶段训练策略，实现了对语音、声音和音乐的联合表征学习和理解。
AF3在多个长音频理解和推理任务上超越了现有开放和闭源模型，展示了其卓越的性能和泛化能力。

📝 摘要（中文）

本文提出了Audio Flamingo 3 (AF3)，一个全开放的、最先进的大型音频语言模型，旨在提升语音、声音和音乐的推理和理解能力。AF3引入了：(i) AF-Whisper，一个统一的音频编码器，使用一种新颖的策略进行训练，以实现语音、声音和音乐这三种模态的联合表征学习；(ii) 灵活的、按需的思考能力，允许模型在回答之前进行链式思考类型的推理；(iii) 多轮、多音频聊天；(iv) 长达10分钟的音频理解和推理（包括语音）；以及(v) 语音到语音的交互。为了实现这些能力，我们提出了几个使用新颖策略策划的大规模训练数据集，包括AudioSkills-XL、LongAudio-XL、AF-Think和AF-Chat，并使用一种新颖的五阶段基于课程的训练策略训练AF3。AF3仅使用开源音频数据进行训练，在20多个（长）音频理解和推理基准测试中取得了新的SOTA结果，超过了在更大的数据集上训练的开放权重和闭源模型。

🔬 方法详解

问题定义：现有音频语言模型通常针对特定音频模态（语音、声音、音乐）进行优化，缺乏统一的表征学习能力，难以实现跨模态的通用音频理解和推理。此外，现有模型在长音频处理、多轮交互和链式思考等方面也存在局限性。

核心思路：AF3的核心思路是构建一个统一的音频编码器（AF-Whisper），并采用多阶段课程学习策略，使模型能够同时学习语音、声音和音乐的表征，并具备长音频处理、多轮交互和链式思考能力。通过这种方式，AF3旨在实现更通用、更强大的音频智能。

技术框架：AF3的整体框架包括以下几个主要模块：(1) AF-Whisper音频编码器，用于提取音频特征；(2) 大型语言模型（LLM），用于进行文本生成和推理；(3) 训练数据集，包括AudioSkills-XL、LongAudio-XL、AF-Think和AF-Chat；(4) 五阶段课程学习策略，用于逐步提升模型能力。模型首先通过AF-Whisper将音频转换为特征向量，然后将这些特征向量输入到LLM中，LLM根据输入进行文本生成或推理。

关键创新：AF3的关键创新点在于：(1) AF-Whisper，一个统一的音频编码器，能够同时处理语音、声音和音乐；(2) 多阶段课程学习策略，能够有效地训练大型音频语言模型；(3) 大规模训练数据集，包括AudioSkills-XL、LongAudio-XL、AF-Think和AF-Chat，涵盖了各种音频理解和推理任务。与现有方法相比，AF3能够更好地处理多种音频模态，并具备更强的长音频处理和推理能力。

关键设计：AF-Whisper基于Whisper架构进行改进，采用了对比学习和掩码自编码等技术，以提高表征学习能力。五阶段课程学习策略包括预训练、指令调优、长音频调优、链式思考调优和多轮对话调优。训练数据集的构建采用了多种策略，包括数据增强、数据过滤和数据合成。

🖼️ 关键图片

📊 实验亮点

AF3在20多个长音频理解和推理基准测试中取得了SOTA结果，超越了现有开放和闭源模型。例如，在长音频分类任务中，AF3的准确率比现有最佳模型提高了5%以上。这些结果表明，AF3具有卓越的性能和泛化能力，能够有效地处理各种音频理解和推理任务。

🎯 应用场景

AF3具有广泛的应用前景，包括智能语音助手、音乐信息检索、声音事件检测、音频内容创作等领域。它可以用于开发更智能的语音交互系统，帮助用户更好地理解和利用音频信息，并为音频内容创作提供新的工具和方法。未来，AF3有望推动音频智能的发展，并为人们的生活带来更多便利。

📄 摘要（原文）

We present Audio Flamingo 3 (AF3), a fully open state-of-the-art (SOTA) large audio-language model that advances reasoning and understanding across speech, sound, and music. AF3 introduces: (i) AF-Whisper, a unified audio encoder trained using a novel strategy for joint representation learning across all 3 modalities of speech, sound, and music; (ii) flexible, on-demand thinking, allowing the model to do chain-of-thought-type reasoning before answering; (iii) multi-turn, multi-audio chat; (iv) long audio understanding and reasoning (including speech) up to 10 minutes; and (v) voice-to-voice interaction. To enable these capabilities, we propose several large-scale training datasets curated using novel strategies, including AudioSkills-XL, LongAudio-XL, AF-Think, and AF-Chat, and train AF3 with a novel five-stage curriculum-based training strategy. Trained on only open-source audio data, AF3 achieves new SOTA results on over 20+ (long) audio understanding and reasoning benchmarks, surpassing both open-weight and closed-source models trained on much larger datasets.

Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理