Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music
作者: Sreyan Ghosh, Arushi Goel, Kaousheik Jayakumar, Lasha Koroshinadze, Nishit Anand, Zhifeng Kong, Siddharth Gururani, Sang-gil Lee, Jaehyeon Kim, Aya Aljafari, Chao-Han Huck Yang, Sungwon Kim, Ramani Duraiswami, Dinesh Manocha, Mohammad Shoeybi, Bryan Catanzaro, Ming-Yu Liu, Wei Ping
分类: cs.SD, cs.AI, cs.CL, eess.AS
发布日期: 2026-04-13
备注: Project website: https://afnext-umd-nvidia.github.io/
💡 一句话要点
提出Audio Flamingo Next,用于提升语音、声音和音乐理解的下一代开放音频语言模型。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 音频语言模型 长音频理解 时间音频思维链 音频推理 多模态学习
📋 核心要点
- 现有音频语言模型在音频理解和推理方面存在不足,尤其是在处理长音频和进行细粒度时间对齐方面。
- AF-Next通过引入更强大的基础模型、大规模数据集、长音频支持和时间音频思维链等方法,提升音频理解和推理能力。
- 实验结果表明,AF-Next在多个音频理解和推理基准上优于同等规模的开放模型,并与更大的模型竞争。
📝 摘要(中文)
本文介绍了Audio Flamingo Next (AF-Next),这是Audio Flamingo系列中最新一代且功能最强大的大型音频语言模型,旨在提升对语音、环境声音和音乐的理解和推理能力。与Audio Flamingo 3相比,AF-Next引入了:(i)更强大的基础音频语言模型,显著提高了各种音频理解任务的准确性;(ii)可扩展的策略,用于构建超出现有学术基准的大规模音频理解和推理数据;(iii)支持长达30分钟的长而复杂的音频输入;以及(iv)时间音频思维链,一种新的推理范式,它将中间推理步骤明确地与长音频中的时间戳对齐,从而实现细粒度的时间对齐并提高可解释性。为了实现这些能力,我们首先对Audio Flamingo 3进行了系统分析,以识别音频理解和推理方面的关键差距。然后,我们策划并扩展了超过100万小时的大规模新数据集,以解决这些限制并扩展现有的AudioSkills-XL、LongAudio-XL、AF-Think和AF-Chat数据集。AF-Next采用基于课程的策略进行训练,该策略涵盖预训练、中期训练和后训练阶段。在包括具有挑战性的长音频任务在内的20个音频理解和推理基准上的大量实验表明,AF-Next的性能大大优于类似规模的开放模型,并且与更大的开放权重和封闭模型相比,仍然具有很强的竞争力,有时甚至超过它们。除了基准性能之外,AF-Next还表现出强大的实际效用,并且可以很好地迁移到未见过的任务,突出了其鲁棒性和泛化能力。除了所有数据、代码和方法之外,我们还开源了AF-Next的3个变体,包括AF-Next-Instruct、AF-Next-Think和AF-Next-Captioner。
🔬 方法详解
问题定义:论文旨在解决现有音频语言模型在处理复杂音频任务,特别是长音频理解和推理方面的局限性。现有方法在细粒度时间对齐、可解释性以及泛化能力方面存在痛点。模型难以有效利用长音频中的时间信息进行推理,并且缺乏对推理过程的明确解释。
核心思路:AF-Next的核心思路是构建一个更强大的基础音频语言模型,并结合时间音频思维链(Temporal Audio Chain-of-Thought)的推理范式,从而提升模型对长音频的理解和推理能力。通过大规模数据集的训练,增强模型的泛化能力和鲁棒性。时间音频思维链通过将中间推理步骤与音频中的时间戳对齐,提高了模型的可解释性。
技术框架:AF-Next的整体框架包括以下几个主要阶段:1) 数据收集与处理:构建大规模音频理解和推理数据集,包括AudioSkills-XL、LongAudio-XL、AF-Think和AF-Chat等数据集。2) 模型预训练:使用大规模数据集对基础音频语言模型进行预训练。3) 模型中期训练:在特定任务上对模型进行微调。4) 模型后训练:使用时间音频思维链进行训练,提升模型的推理能力。5) 模型评估:在多个音频理解和推理基准上评估模型的性能。
关键创新:AF-Next的关键创新点在于:1) 更强大的基础音频语言模型,提升了音频理解的准确性。2) 时间音频思维链,通过将推理步骤与时间戳对齐,实现了细粒度的时间对齐和可解释性。3) 大规模数据集的构建,增强了模型的泛化能力。与现有方法相比,AF-Next更注重长音频的处理和推理过程的可解释性。
关键设计:AF-Next的关键设计包括:1) 基于课程的训练策略,包括预训练、中期训练和后训练阶段。2) 时间音频思维链的实现,包括中间推理步骤的定义和时间戳的对齐。3) 大规模数据集的构建,包括音频数据的收集、清洗和标注。4) 模型结构的优化,以适应长音频的处理。
🖼️ 关键图片
📊 实验亮点
AF-Next在20个音频理解和推理基准上进行了广泛的实验,结果表明其性能大大优于同等规模的开放模型,并且与更大的开放权重和封闭模型相比,仍然具有很强的竞争力,有时甚至超过它们。尤其是在长音频任务上,AF-Next表现出显著的优势,证明了其在处理复杂音频场景方面的能力。
🎯 应用场景
AF-Next具有广泛的应用前景,包括智能语音助手、音频内容分析、音乐信息检索、环境声音监测等领域。它可以用于自动生成音频描述、理解音频内容、进行音频事件检测和分类,以及辅助音乐创作和分析。该研究的实际价值在于提升音频理解和推理的准确性和效率,为相关应用提供更强大的技术支持。未来,AF-Next有望在人机交互、智能安防、娱乐等领域发挥重要作用。
📄 摘要(原文)
We present Audio Flamingo Next (AF-Next), the next-generation and most capable large audio-language model in the Audio Flamingo series, designed to advance understanding and reasoning over speech, environmental sounds and music. Compared to Audio Flamingo 3, AF-Next introduces: (i) a stronger foundational audio-language model that significantly improves accuracy across diverse audio understanding tasks; (ii) scalable strategies for constructing large-scale audio understanding and reasoning data beyond existing academic benchmarks; (iii) support for long and complex audio inputs up to 30 minutes; and (iv) Temporal Audio Chain-of-Thought, a new reasoning paradigm that explicitly grounds intermediate reasoning steps to timestamps in long audio, enabling fine-grained temporal alignment and improved interpretability. To enable these capabilities, we first conduct a systematic analysis of Audio Flamingo 3 to identify key gaps in audio understanding and reasoning. We then curate and scale new large-scale datasets totaling over 1 million hours to address these limitations and expand the existing AudioSkills-XL, LongAudio-XL, AF-Think and AF-Chat datasets. AF-Next is trained using a curriculum-based strategy spanning pre-training, mid-training and post-training stages. Extensive experiments across 20 audio understanding and reasoning benchmarks, including challenging long-audio tasks, show that AF-Next outperforms similarly sized open models by large margins and remains highly competitive with and sometimes surpasses, much larger open-weight and closed models. Beyond benchmark performance, AF-Next exhibits strong real-world utility and transfers well to unseen tasks, highlighting its robustness and generalization ability. In addition to all data, code and methods, we open-source 3 variants of AF-Next, including AF-Next-Instruct, AF-Next-Think and AF-Next-Captioner.