Audio-DeepThinker: Progressive Reasoning-Aware Reinforcement Learning for High-Quality Chain-of-Thought Emergence in Audio Language Models

📄 arXiv: 2604.18187v1 📥 PDF

作者: Xiang He, Chenxing Li, Jinting Wang, Yan Rong, Tianxin Xie, Wenfu Wang, Li Liu, Dong Yu

分类: cs.SD, cs.CL

发布日期: 2026-04-20


💡 一句话要点

提出Audio-DeepThinker,通过强化学习提升音频语言模型中的高质量思维链推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音频语言模型 思维链推理 强化学习 混合奖励 课程学习

📋 核心要点

  1. 现有音频语言模型缺乏显式的推理过程,且依赖有监督微调或粗糙奖励的强化学习,限制了推理质量。
  2. Audio-DeepThinker通过混合推理相似性奖励和渐进式两阶段课程,实现高质量的思维链推理。
  3. 实验表明,Audio-DeepThinker在多个音频推理数据集上取得了SOTA结果,并在Interspeech 2026挑战赛中获得第一名。

📝 摘要(中文)

大型音频语言模型(LALM)在音频理解方面取得了显著进展,但它们主要作为感知-回答系统运行,缺乏明确的推理过程。现有的音频推理增强方法依赖于有监督的思维链(CoT)微调,受限于训练数据质量,或者使用粗糙的奖励进行强化学习(RL),无法直接评估推理质量。我们提出了Audio-DeepThinker框架,基于两个核心思想。首先,引入混合推理相似性奖励,通过结合LLM评估器(评估逻辑路径对齐、关键步骤覆盖和分析深度)和嵌入相似性组件(强制与参考推理链的语义对齐)来直接监督生成推理链的质量。其次,提出了一个渐进式的两阶段课程,通过纯RL探索,从一个没有先验思维链能力的指令调整模型中,实现高质量的CoT推理。第一阶段在基础音频问答上使用混合奖励进行训练,以培养基本的推理模式,而第二阶段转向声学上具有挑战性的边界情况,使用仅LLM的奖励以获得更大的推理多样性。Audio-DeepThinker在MMAR (74.0%)、MMAU-test-mini (78.5%)和MMSU (77.26%)上取得了最先进的结果,并在Interspeech 2026音频推理挑战赛(单模型赛道)中获得第一名。可解释性分析进一步表明,RL训练主要重塑了上层MoE门控机制,并且推理token在上层Transformer层中逐步结晶,从而提供了关于音频推理如何通过探索出现的机制性见解。

🔬 方法详解

问题定义:现有的大型音频语言模型(LALM)虽然在音频理解方面表现出色,但通常缺乏明确的推理过程,仅仅是感知-回答系统。现有的提升音频推理能力的方法,要么依赖于有监督的思维链(CoT)微调,但受限于训练数据的质量;要么使用强化学习(RL),但粗糙的奖励函数无法直接评估推理链的质量,导致生成的推理链缺乏声学基础。

核心思路:Audio-DeepThinker的核心思路是通过强化学习,让模型在没有人工标注的思维链数据的情况下,自主探索并学习高质量的推理过程。为了实现这一点,论文设计了一个混合奖励函数,并采用渐进式的两阶段课程学习策略,引导模型逐步掌握复杂的音频推理能力。

技术框架:Audio-DeepThinker的整体框架包含两个主要阶段:第一阶段,在基础音频问答任务上,使用混合推理相似性奖励进行训练,旨在培养模型基本的推理模式。第二阶段,将训练任务转移到声学上更具挑战性的边界情况,并使用仅基于LLM的奖励函数,鼓励模型探索更多样化的推理路径。整个训练过程基于强化学习,模型通过与环境交互,不断优化自身的推理策略。

关键创新:Audio-DeepThinker的关键创新在于以下两点:一是提出了混合推理相似性奖励,该奖励结合了LLM评估器和嵌入相似性组件,能够更准确地评估生成推理链的质量。二是设计了渐进式的两阶段课程学习策略,使得模型能够在没有人工标注数据的情况下,通过纯粹的强化学习探索,获得高质量的思维链推理能力。

关键设计:混合推理相似性奖励包含两个部分:LLM评估器评估生成推理链的逻辑路径对齐、关键步骤覆盖和分析深度;嵌入相似性组件则通过计算生成推理链与参考推理链的嵌入向量相似度,来保证语义对齐。渐进式两阶段课程学习策略中,第一阶段使用基础音频问答任务和混合奖励,第二阶段使用声学挑战性边界情况和仅LLM奖励。具体参数设置和网络结构细节在论文中有详细描述,但摘要中未提供具体数值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Audio-DeepThinker在MMAR、MMAU-test-mini和MMSU等多个音频推理数据集上取得了最先进的结果,分别达到了74.0%、78.5%和77.26%。该模型还在Interspeech 2026音频推理挑战赛(单模型赛道)中获得第一名,证明了其在音频推理方面的卓越性能。此外,可解释性分析表明,RL训练主要重塑了上层MoE门控机制,并且推理token在上层Transformer层中逐步结晶。

🎯 应用场景

Audio-DeepThinker的研究成果可应用于智能语音助手、自动驾驶、医疗诊断等领域。通过提升音频语言模型的推理能力,可以使其更好地理解复杂的音频信息,从而实现更智能、更可靠的应用。例如,在智能语音助手中,可以进行更复杂的指令理解和问题解答;在自动驾驶中,可以更准确地识别和理解周围环境的声音信息;在医疗诊断中,可以辅助医生进行更精确的疾病诊断。

📄 摘要(原文)

Large Audio-Language Models (LALMs) have made significant progress in audio understanding, yet they primarily operate as perception-and-answer systems without explicit reasoning processes. Existing methods for enhancing audio reasoning rely either on supervised chain-of-thought (CoT) fine-tuning, which is limited by training data quality, or on reinforcement learning (RL) with coarse rewards that do not directly evaluate reasoning quality. As a result, the generated reasoning chains often appear well-structured yet lack specific acoustic grounding. We propose Audio-DeepThinker, a framework built on two core ideas. First, we introduce a hybrid reasoning similarity reward that directly supervises the quality of generated reasoning chains by combining an LLM evaluator assessing logical path alignment, key step coverage, and analytical depth with an embedding similarity component enforcing semantic alignment with reference reasoning chains. Second, we propose a progressive two-stage curriculum that enables high-quality CoT reasoning to emerge through pure RL exploration, without any supervised reasoning fine-tuning, from an instruction-tuned model that possesses no prior chain-of-thought capability. Stage 1 trains on foundational audio QA with the hybrid reward to foster basic reasoning patterns, while Stage 2 shifts to acoustically challenging boundary cases with an LLM-only reward for greater reasoning diversity. Audio-DeepThinker achieves state-of-the-art results on MMAR (74.0%), MMAU-test-mini (78.5%), and MMSU (77.26%), winning 1st Place in the Interspeech 2026 Audio Reasoning Challenge (Single Model Track). Interpretability analyses further reveal that RL training primarily reshapes upper-layer MoE gating mechanisms and that reasoning tokens crystallize progressively in the upper transformer layers, offering mechanistic insights into how audio reasoning emerges through exploration.