Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music

作者: Sreyan Ghosh, Arushi Goel, Kaousheik Jayakumar, Lasha Koroshinadze, Nishit Anand, Zhifeng Kong, Siddharth Gururani, Sang-gil Lee, Jaehyeon Kim, Aya Aljafari, Chao-Han Huck Yang, Sungwon Kim, Ramani Duraiswami, Dinesh Manocha, Mohammad Shoeybi, Bryan Catanzaro, Ming-Yu Liu, Wei Ping

分类: cs.SD, cs.AI, cs.CL, eess.AS

发布日期: 2026-04-13

备注: Project website: https://afnext-umd-nvidia.github.io/

💡 一句话要点

提出Audio Flamingo Next，用于提升语音、声音和音乐理解的下一代开放音频语言模型。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 音频语言模型 长音频理解 时间音频思维链 音频推理 多模态学习

📋 核心要点

现有音频语言模型在音频理解和推理方面存在不足，尤其是在处理长音频和进行细粒度时间对齐方面。
AF-Next通过引入更强大的基础模型、大规模数据集、长音频支持和时间音频思维链等方法，提升音频理解和推理能力。
实验结果表明，AF-Next在多个音频理解和推理基准上优于同等规模的开放模型，并与更大的模型竞争。

📝 摘要（中文）

本文介绍了Audio Flamingo Next (AF-Next)，这是Audio Flamingo系列中最新一代且功能最强大的大型音频语言模型，旨在提升对语音、环境声音和音乐的理解和推理能力。与Audio Flamingo 3相比，AF-Next引入了：（i）更强大的基础音频语言模型，显著提高了各种音频理解任务的准确性；（ii）可扩展的策略，用于构建超出现有学术基准的大规模音频理解和推理数据；（iii）支持长达30分钟的长而复杂的音频输入；以及（iv）时间音频思维链，一种新的推理范式，它将中间推理步骤明确地与长音频中的时间戳对齐，从而实现细粒度的时间对齐并提高可解释性。为了实现这些能力，我们首先对Audio Flamingo 3进行了系统分析，以识别音频理解和推理方面的关键差距。然后，我们策划并扩展了超过100万小时的大规模新数据集，以解决这些限制并扩展现有的AudioSkills-XL、LongAudio-XL、AF-Think和AF-Chat数据集。AF-Next采用基于课程的策略进行训练，该策略涵盖预训练、中期训练和后训练阶段。在包括具有挑战性的长音频任务在内的20个音频理解和推理基准上的大量实验表明，AF-Next的性能大大优于类似规模的开放模型，并且与更大的开放权重和封闭模型相比，仍然具有很强的竞争力，有时甚至超过它们。除了基准性能之外，AF-Next还表现出强大的实际效用，并且可以很好地迁移到未见过的任务，突出了其鲁棒性和泛化能力。除了所有数据、代码和方法之外，我们还开源了AF-Next的3个变体，包括AF-Next-Instruct、AF-Next-Think和AF-Next-Captioner。

🔬 方法详解

问题定义：论文旨在解决现有音频语言模型在处理复杂音频任务，特别是长音频理解和推理方面的局限性。现有方法在细粒度时间对齐、可解释性以及泛化能力方面存在痛点。模型难以有效利用长音频中的时间信息进行推理，并且缺乏对推理过程的明确解释。

核心思路：AF-Next的核心思路是构建一个更强大的基础音频语言模型，并结合时间音频思维链（Temporal Audio Chain-of-Thought）的推理范式，从而提升模型对长音频的理解和推理能力。通过大规模数据集的训练，增强模型的泛化能力和鲁棒性。时间音频思维链通过将中间推理步骤与音频中的时间戳对齐，提高了模型的可解释性。

技术框架：AF-Next的整体框架包括以下几个主要阶段：1) 数据收集与处理：构建大规模音频理解和推理数据集，包括AudioSkills-XL、LongAudio-XL、AF-Think和AF-Chat等数据集。2) 模型预训练：使用大规模数据集对基础音频语言模型进行预训练。3) 模型中期训练：在特定任务上对模型进行微调。4) 模型后训练：使用时间音频思维链进行训练，提升模型的推理能力。5) 模型评估：在多个音频理解和推理基准上评估模型的性能。

关键创新：AF-Next的关键创新点在于：1) 更强大的基础音频语言模型，提升了音频理解的准确性。2) 时间音频思维链，通过将推理步骤与时间戳对齐，实现了细粒度的时间对齐和可解释性。3) 大规模数据集的构建，增强了模型的泛化能力。与现有方法相比，AF-Next更注重长音频的处理和推理过程的可解释性。

关键设计：AF-Next的关键设计包括：1) 基于课程的训练策略，包括预训练、中期训练和后训练阶段。2) 时间音频思维链的实现，包括中间推理步骤的定义和时间戳的对齐。3) 大规模数据集的构建，包括音频数据的收集、清洗和标注。4) 模型结构的优化，以适应长音频的处理。

🖼️ 关键图片

📊 实验亮点

AF-Next在20个音频理解和推理基准上进行了广泛的实验，结果表明其性能大大优于同等规模的开放模型，并且与更大的开放权重和封闭模型相比，仍然具有很强的竞争力，有时甚至超过它们。尤其是在长音频任务上，AF-Next表现出显著的优势，证明了其在处理复杂音频场景方面的能力。

🎯 应用场景

AF-Next具有广泛的应用前景，包括智能语音助手、音频内容分析、音乐信息检索、环境声音监测等领域。它可以用于自动生成音频描述、理解音频内容、进行音频事件检测和分类，以及辅助音乐创作和分析。该研究的实际价值在于提升音频理解和推理的准确性和效率，为相关应用提供更强大的技术支持。未来，AF-Next有望在人机交互、智能安防、娱乐等领域发挥重要作用。

📄 摘要（原文）

We present Audio Flamingo Next (AF-Next), the next-generation and most capable large audio-language model in the Audio Flamingo series, designed to advance understanding and reasoning over speech, environmental sounds and music. Compared to Audio Flamingo 3, AF-Next introduces: (i) a stronger foundational audio-language model that significantly improves accuracy across diverse audio understanding tasks; (ii) scalable strategies for constructing large-scale audio understanding and reasoning data beyond existing academic benchmarks; (iii) support for long and complex audio inputs up to 30 minutes; and (iv) Temporal Audio Chain-of-Thought, a new reasoning paradigm that explicitly grounds intermediate reasoning steps to timestamps in long audio, enabling fine-grained temporal alignment and improved interpretability. To enable these capabilities, we first conduct a systematic analysis of Audio Flamingo 3 to identify key gaps in audio understanding and reasoning. We then curate and scale new large-scale datasets totaling over 1 million hours to address these limitations and expand the existing AudioSkills-XL, LongAudio-XL, AF-Think and AF-Chat datasets. AF-Next is trained using a curriculum-based strategy spanning pre-training, mid-training and post-training stages. Extensive experiments across 20 audio understanding and reasoning benchmarks, including challenging long-audio tasks, show that AF-Next outperforms similarly sized open models by large margins and remains highly competitive with and sometimes surpasses, much larger open-weight and closed models. Beyond benchmark performance, AF-Next exhibits strong real-world utility and transfers well to unseen tasks, highlighting its robustness and generalization ability. In addition to all data, code and methods, we open-source 3 variants of AF-Next, including AF-Next-Instruct, AF-Next-Think and AF-Next-Captioner.

Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理