SARI: Structured Audio Reasoning via Curriculum-Guided Reinforcement Learning

📄 arXiv: 2504.15900v3 📥 PDF

作者: Cheng Wen, Tingwei Guo, Shuaijiang Zhao, Wei Zou, Xiangang Li

分类: cs.CL

发布日期: 2025-04-22 (更新: 2025-04-29)


💡 一句话要点

SARI:通过课程引导强化学习实现结构化音频推理

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音频推理 强化学习 课程学习 结构化推理 音频-语言模型

📋 核心要点

  1. 现有方法缺乏对音频-语言推理中强化学习应用的深入研究,特别是如何有效利用强化学习提升模型推理能力。
  2. 论文提出SARI模型,通过课程引导的强化学习,结合结构化的思维链,提升大型音频-语言模型的推理能力。
  3. SARI模型在音频推理任务上取得了显著提升,在MMAU test-mini基准测试中达到了67.08%的最先进性能。

📝 摘要(中文)

最近的研究表明,强化学习(RL)可以通过提示大型语言模型(LLM)“先思考再回答”来显著提高其推理能力。然而,这些优势是否以及如何转移到音频-语言推理领域,在很大程度上仍未被探索。本文将DeepSeek-R1的Group-Relative Policy Optimization (GRPO)框架扩展到大型音频-语言模型(LALM),并构建了一个包含32k个样本的多项选择语料库。通过在结构化和非结构化的思维链上进行两阶段的监督微调,然后进行课程引导的GRPO,系统地比较了在相同架构下隐式与显式,以及结构化与自由形式的推理。本文提出的结构化音频推理模型SARI,在Qwen2-Audio-7B-Instruct基础模型上,平均准确率提高了16.35%。此外,基于Qwen2.5-Omni的变体在MMAU test-mini基准测试中达到了67.08%的最先进性能。消融实验表明,在使用基础模型时:(i) SFT预热对于稳定的RL训练非常重要,(ii) 结构化链比非结构化链产生更强的泛化能力,以及(iii) 从易到难的课程加速了收敛并提高了最终性能。这些发现表明,显式的结构化推理和课程学习显著增强了音频-语言理解。

🔬 方法详解

问题定义:论文旨在解决大型音频-语言模型在音频推理任务中表现不足的问题。现有方法通常依赖于隐式或自由形式的推理,缺乏结构化的推理过程,导致模型难以进行复杂推理,泛化能力较弱。

核心思路:论文的核心思路是利用强化学习来引导模型进行显式的、结构化的推理。通过设计合理的奖励机制和课程学习策略,鼓励模型学习结构化的思维链,从而提高推理的准确性和鲁棒性。

技术框架:SARI模型的技术框架主要包括以下几个阶段:首先,使用监督微调(SFT)在结构化和非结构化的思维链上对模型进行预训练。然后,利用课程引导的Group-Relative Policy Optimization (GRPO)进行强化学习,逐步提升模型的推理能力。GRPO框架基于DeepSeek-R1,并扩展到大型音频-语言模型(LALM)。

关键创新:论文的关键创新在于:(1) 将GRPO框架成功应用于音频-语言推理领域;(2) 提出了结构化的音频推理方法,通过显式的思维链提升推理能力;(3) 引入了课程学习策略,加速了强化学习的收敛,并提高了最终性能。与现有方法相比,SARI模型更加注重推理过程的结构化和可解释性。

关键设计:论文的关键设计包括:(1) 设计了结构化的思维链,用于指导模型的推理过程;(2) 采用了课程学习策略,从易到难地训练模型;(3) 使用GRPO框架进行强化学习,优化模型的策略。具体参数设置和损失函数细节未在摘要中明确说明,属于未知信息。

🖼️ 关键图片

img_0

📊 实验亮点

SARI模型在Qwen2-Audio-7B-Instruct基础模型上,平均准确率提高了16.35%。基于Qwen2.5-Omni的SARI变体在MMAU test-mini基准测试中达到了67.08%的最先进性能,显著优于现有方法,证明了结构化推理和课程学习的有效性。

🎯 应用场景

该研究成果可应用于智能语音助手、音频内容分析、音频事件检测等领域。通过提升音频-语言模型的推理能力,可以实现更智能、更准确的音频理解和处理,为用户提供更好的交互体验和服务。未来,该技术有望在自动驾驶、智能家居等领域发挥重要作用。

📄 摘要(原文)

Recent work shows that reinforcement learning(RL) can markedly sharpen the reasoning ability of large language models (LLMs) by prompting them to "think before answering." Yet whether and how these gains transfer to audio-language reasoning remains largely unexplored. We extend the Group-Relative Policy Optimization (GRPO) framework from DeepSeek-R1 to a Large Audio-Language Model (LALM), and construct a 32k sample multiple-choice corpus. Using a two-stage regimen supervised fine-tuning on structured and unstructured chains-of-thought, followed by curriculum-guided GRPO, we systematically compare implicit vs. explicit, and structured vs. free form reasoning under identical architectures. Our structured audio reasoning model, SARI (Structured Audio Reasoning via Curriculum-Guided Reinforcement Learning), achieves a 16.35% improvement in average accuracy over the base model Qwen2-Audio-7B-Instruct. Furthermore, the variant built upon Qwen2.5-Omni reaches state-of-the-art performance of 67.08% on the MMAU test-mini benchmark. Ablation experiments show that on the base model we use: (i) SFT warm-up is important for stable RL training, (ii) structured chains yield more robust generalization than unstructured ones, and (iii) easy-to-hard curricula accelerate convergence and improve final performance. These findings demonstrate that explicit, structured reasoning and curriculum learning substantially enhances audio-language understanding.