Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models

作者: Zhifei Xie, Mingbao Lin, Zihang Liu, Pengcheng Wu, Shuicheng Yan, Chunyan Miao

分类: cs.SD, cs.AI, cs.CL, cs.LG, cs.MM, eess.AS

发布日期: 2025-03-04 (更新: 2025-09-20)

备注: Technical report, in process

💡 一句话要点

Audio-Reasoner：通过大规模音频语言模型提升音频推理能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 音频推理 大型语言模型 思维链 多模态学习 音频理解

📋 核心要点

现有的多模态推理研究主要集中在视觉和文本模态，忽略了音频模态，缺乏针对音频推理的有效方法。
Audio-Reasoner的核心在于构建大规模高质量的音频推理数据集CoTA，并采用结构化的思维链（CoT）训练方法，提升模型推理能力。
实验结果表明，Audio-Reasoner在多个音频推理基准测试中取得了显著的性能提升，证明了其有效性和优越性。

📝 摘要（中文）

本文提出Audio-Reasoner，一个用于音频任务深度推理的大规模音频语言模型。作者精心构建了一个大规模、多样化的多任务音频数据集，并进行了简单的标注。然后，利用闭源模型进行二次标注、QA生成以及结构化的思维链（COT）过程。这些数据集共同构成了一个高质量的推理数据集，包含120万个富含推理的样本，命名为CoTA。遵循推理规模化原则，在CoTA上训练Audio-Reasoner，使其在音频推理方面获得强大的逻辑能力。实验表明，Audio-Reasoner在关键基准测试中取得了最先进的性能，包括MMAU-mini（+25.42%）、AIR-Bench chat/foundation（+14.57%/+10.13%）和MELD（+8.01%）。研究结果强调了结构化CoT训练在提升音频推理能力方面的核心作用。

🔬 方法详解

问题定义：现有的大型语言模型在多模态推理方面取得了显著进展，但音频模态常常被忽视。缺乏大规模、高质量的音频推理数据集以及有效的训练方法，导致模型在音频推理任务中表现不佳。现有方法难以捕捉音频中的复杂关系和逻辑，限制了其在实际应用中的潜力。

核心思路：本文的核心思路是构建一个大规模的音频推理数据集CoTA，并利用结构化的思维链（CoT）训练方法，引导模型学习音频推理过程。通过CoT，模型能够逐步分解推理步骤，从而更好地理解音频内容并做出准确的判断。这种方法旨在弥补现有模型在音频推理方面的不足，提升其逻辑能力。

技术框架：Audio-Reasoner的整体框架包括数据构建和模型训练两个主要阶段。首先，作者构建了大规模多任务音频数据集CoTA，该数据集包含多种音频任务和丰富的推理信息。然后，利用闭源模型进行二次标注、QA生成以及结构化的CoT过程，进一步增强数据集的质量。在模型训练阶段，Audio-Reasoner在CoTA数据集上进行训练，学习音频推理能力。

关键创新：本文的关键创新在于构建了大规模高质量的音频推理数据集CoTA，并采用了结构化的思维链（CoT）训练方法。CoTA数据集的规模和多样性为模型提供了充足的学习资源，而CoT训练方法则引导模型学习音频推理的逻辑过程。这种结合使得Audio-Reasoner在音频推理方面取得了显著的性能提升。

关键设计：CoTA数据集包含120万个推理样本，涵盖多种音频任务。在CoT训练中，作者设计了结构化的推理步骤，引导模型逐步分解推理过程。具体的技术细节包括：使用闭源模型进行数据增强，设计合适的QA生成策略，以及优化模型训练参数等。损失函数未知，网络结构细节未知。

🖼️ 关键图片

📊 实验亮点

Audio-Reasoner在多个音频推理基准测试中取得了显著的性能提升。在MMAU-mini上，Audio-Reasoner的性能提升了25.42%；在AIR-Bench chat/foundation上，性能分别提升了14.57%/10.13%；在MELD数据集上，性能提升了8.01%。这些结果表明，Audio-Reasoner在音频推理方面具有强大的能力。

🎯 应用场景

Audio-Reasoner具有广泛的应用前景，例如智能语音助手、音频事件检测、音乐理解、情感识别等。它可以应用于安防监控，通过分析音频信息识别异常事件；也可以用于医疗诊断，辅助医生分析呼吸音、心音等音频信号。未来，Audio-Reasoner有望在更多领域发挥重要作用，提升音频智能化的水平。

📄 摘要（原文）

Recent advancements in multimodal reasoning have largely overlooked the audio modality. We introduce Audio-Reasoner, a large-scale audio language model for deep reasoning in audio tasks. We meticulously curated a large-scale and diverse multi-task audio dataset with simple annotations. Then, we leverage closed-source models to conduct secondary labeling, QA generation, along with structured COT process. These datasets together form a high-quality reasoning dataset with 1.2 million reasoning-rich samples, which we name CoTA. Following inference scaling principles, we train Audio-Reasoner on CoTA, enabling it to achieve great logical capabilities in audio reasoning. Experiments show state-of-the-art performance across key benchmarks, including MMAU-mini (+25.42%), AIR-Bench chat/foundation(+14.57%/+10.13%), and MELD (+8.01%). Our findings stress the core of structured CoT training in advancing audio reasoning.

Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理