Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models
作者: Zhifei Xie, Mingbao Lin, Zihang Liu, Pengcheng Wu, Shuicheng Yan, Chunyan Miao
分类: cs.SD, cs.AI, cs.CL, cs.LG, cs.MM, eess.AS
发布日期: 2025-03-04 (更新: 2025-09-20)
备注: Technical report, in process
💡 一句话要点
Audio-Reasoner:通过大规模音频语言模型提升音频推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 音频推理 大型语言模型 思维链 多模态学习 音频理解
📋 核心要点
- 现有的多模态推理研究主要集中在视觉和文本模态,忽略了音频模态,缺乏针对音频推理的有效方法。
- Audio-Reasoner的核心在于构建大规模高质量的音频推理数据集CoTA,并采用结构化的思维链(CoT)训练方法,提升模型推理能力。
- 实验结果表明,Audio-Reasoner在多个音频推理基准测试中取得了显著的性能提升,证明了其有效性和优越性。
📝 摘要(中文)
本文提出Audio-Reasoner,一个用于音频任务深度推理的大规模音频语言模型。作者精心构建了一个大规模、多样化的多任务音频数据集,并进行了简单的标注。然后,利用闭源模型进行二次标注、QA生成以及结构化的思维链(COT)过程。这些数据集共同构成了一个高质量的推理数据集,包含120万个富含推理的样本,命名为CoTA。遵循推理规模化原则,在CoTA上训练Audio-Reasoner,使其在音频推理方面获得强大的逻辑能力。实验表明,Audio-Reasoner在关键基准测试中取得了最先进的性能,包括MMAU-mini(+25.42%)、AIR-Bench chat/foundation(+14.57%/+10.13%)和MELD(+8.01%)。研究结果强调了结构化CoT训练在提升音频推理能力方面的核心作用。
🔬 方法详解
问题定义:现有的大型语言模型在多模态推理方面取得了显著进展,但音频模态常常被忽视。缺乏大规模、高质量的音频推理数据集以及有效的训练方法,导致模型在音频推理任务中表现不佳。现有方法难以捕捉音频中的复杂关系和逻辑,限制了其在实际应用中的潜力。
核心思路:本文的核心思路是构建一个大规模的音频推理数据集CoTA,并利用结构化的思维链(CoT)训练方法,引导模型学习音频推理过程。通过CoT,模型能够逐步分解推理步骤,从而更好地理解音频内容并做出准确的判断。这种方法旨在弥补现有模型在音频推理方面的不足,提升其逻辑能力。
技术框架:Audio-Reasoner的整体框架包括数据构建和模型训练两个主要阶段。首先,作者构建了大规模多任务音频数据集CoTA,该数据集包含多种音频任务和丰富的推理信息。然后,利用闭源模型进行二次标注、QA生成以及结构化的CoT过程,进一步增强数据集的质量。在模型训练阶段,Audio-Reasoner在CoTA数据集上进行训练,学习音频推理能力。
关键创新:本文的关键创新在于构建了大规模高质量的音频推理数据集CoTA,并采用了结构化的思维链(CoT)训练方法。CoTA数据集的规模和多样性为模型提供了充足的学习资源,而CoT训练方法则引导模型学习音频推理的逻辑过程。这种结合使得Audio-Reasoner在音频推理方面取得了显著的性能提升。
关键设计:CoTA数据集包含120万个推理样本,涵盖多种音频任务。在CoT训练中,作者设计了结构化的推理步骤,引导模型逐步分解推理过程。具体的技术细节包括:使用闭源模型进行数据增强,设计合适的QA生成策略,以及优化模型训练参数等。损失函数未知,网络结构细节未知。
🖼️ 关键图片
📊 实验亮点
Audio-Reasoner在多个音频推理基准测试中取得了显著的性能提升。在MMAU-mini上,Audio-Reasoner的性能提升了25.42%;在AIR-Bench chat/foundation上,性能分别提升了14.57%/10.13%;在MELD数据集上,性能提升了8.01%。这些结果表明,Audio-Reasoner在音频推理方面具有强大的能力。
🎯 应用场景
Audio-Reasoner具有广泛的应用前景,例如智能语音助手、音频事件检测、音乐理解、情感识别等。它可以应用于安防监控,通过分析音频信息识别异常事件;也可以用于医疗诊断,辅助医生分析呼吸音、心音等音频信号。未来,Audio-Reasoner有望在更多领域发挥重要作用,提升音频智能化的水平。
📄 摘要(原文)
Recent advancements in multimodal reasoning have largely overlooked the audio modality. We introduce Audio-Reasoner, a large-scale audio language model for deep reasoning in audio tasks. We meticulously curated a large-scale and diverse multi-task audio dataset with simple annotations. Then, we leverage closed-source models to conduct secondary labeling, QA generation, along with structured COT process. These datasets together form a high-quality reasoning dataset with 1.2 million reasoning-rich samples, which we name CoTA. Following inference scaling principles, we train Audio-Reasoner on CoTA, enabling it to achieve great logical capabilities in audio reasoning. Experiments show state-of-the-art performance across key benchmarks, including MMAU-mini (+25.42%), AIR-Bench chat/foundation(+14.57%/+10.13%), and MELD (+8.01%). Our findings stress the core of structured CoT training in advancing audio reasoning.