Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering

📄 arXiv: 2503.11197v4 📥 PDF

作者: Gang Li, Jizhong Liu, Heinrich Dinkel, Yadong Niu, Junbo Zhang, Jian Luan

分类: cs.SD, cs.AI, cs.CL, eess.AS

发布日期: 2025-03-14 (更新: 2025-05-14)

🔗 代码/项目: GITHUB | HUGGINGFACE


💡 一句话要点

强化学习在音频问答任务中超越监督微调,实现更优性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音频问答 强化学习 群体相对策略优化 大型音频语言模型 多模态学习

📋 核心要点

  1. 现有音频问答模型在推理能力上存在不足,尤其是在复杂场景下。
  2. 采用群体相对策略优化算法,直接优化模型在音频问答任务上的表现。
  3. 实验表明,强化学习方法在小样本情况下显著优于监督微调,并在MMAU测试集上取得SOTA结果。

📝 摘要(中文)

本文探讨了强化学习(RL)在音频理解和推理方面的应用,特别关注音频问答(AQA)任务。研究利用群体相对策略优化(GRPO)算法对Qwen2-Audio-7B-Instruct模型进行训练,实验结果表明,在MMAU Test-mini基准测试中,该方法达到了最先进的性能,准确率达到64.5%。主要发现包括:GRPO算法可以有效地应用于大型音频语言模型(LALM),即使模型只有82亿参数;仅使用3.8万个后训练样本,RL显著优于监督微调(SFT),表明基于RL的方法无需大型数据集也能有效;显式推理过程并未对AQA任务产生显著益处,如何有效利用深度思考仍是一个开放问题;LALM在听觉-语言推理方面仍然远远落后于人类,表明基于RL的方法值得进一步探索。

🔬 方法详解

问题定义:论文旨在解决音频问答(AQA)任务中,现有大型音频语言模型(LALM)推理能力不足的问题。传统的监督微调(SFT)方法依赖于大量标注数据,且难以有效提升模型的推理能力,尤其是在需要复杂推理的场景下。因此,如何利用更少的数据,提升LALM在AQA任务中的性能,是本文要解决的核心问题。

核心思路:论文的核心思路是利用强化学习(RL)直接优化LALM在AQA任务上的表现。通过将AQA任务建模为马尔可夫决策过程(MDP),并使用奖励函数来指导模型的学习,从而使模型能够更好地理解音频内容并生成准确的答案。这种方法的核心在于,它能够直接优化模型的最终目标,而无需像SFT那样依赖于中间标注数据。

技术框架:整体框架包括以下几个主要步骤:1) 使用Qwen2-Audio-7B-Instruct作为基础LALM;2) 构建AQA任务的MDP环境,包括状态、动作、奖励等;3) 使用群体相对策略优化(GRPO)算法训练LALM,使其能够根据当前状态选择最佳动作(即生成答案);4) 在MMAU Test-mini基准测试中评估模型的性能。

关键创新:论文的关键创新在于将GRPO算法成功应用于LALM,并在AQA任务中取得了显著的性能提升。与传统的SFT方法相比,该方法能够在小样本情况下实现更好的性能,并且能够更有效地提升模型的推理能力。此外,论文还发现,显式推理过程并未对AQA任务产生显著益处,这为未来的研究提供了新的方向。

关键设计:论文的关键设计包括:1) 使用Qwen2-Audio-7B-Instruct作为基础模型,该模型具有较强的音频理解能力;2) 设计合适的奖励函数,以指导模型的学习,例如,可以使用答案的准确性作为奖励;3) 使用GRPO算法进行训练,该算法能够有效地探索策略空间,并找到最优策略;4) 使用MMAU Test-mini基准测试进行评估,该基准测试包含多种类型的音频问答问题。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,使用GRPO算法训练的Qwen2-Audio-7B-Instruct模型在MMAU Test-mini基准测试中取得了64.5%的准确率,达到了最先进的性能。更重要的是,该方法仅使用3.8万个后训练样本,就显著优于监督微调(SFT)方法,证明了强化学习在音频问答任务中的有效性。

🎯 应用场景

该研究成果可应用于智能语音助手、音频内容检索、自动语音摘要等领域。通过提升机器对音频内容的理解和推理能力,可以实现更智能、更高效的音频处理和应用,例如,在智能家居中,可以根据用户的语音指令,自动控制家电设备;在教育领域,可以自动生成音频课程的摘要。

📄 摘要(原文)

Recently, reinforcement learning (RL) has been shown to greatly enhance the reasoning capabilities of large language models (LLMs), and RL-based approaches have been progressively applied to visual multimodal tasks. However, the audio modality has largely been overlooked in these developments. Thus, we conduct a series of RL explorations in audio understanding and reasoning, specifically focusing on the audio question answering (AQA) task. We leverage the group relative policy optimization (GRPO) algorithm to Qwen2-Audio-7B-Instruct, and our experiments demonstrated state-of-the-art performance on the MMAU Test-mini benchmark, achieving an accuracy rate of 64.5%. The main findings in this technical report are as follows: 1) The GRPO algorithm can be effectively applied to large audio language models (LALMs), even when the model has only 8.2B parameters; 2) With only 38k post-training samples, RL significantly outperforms supervised fine-tuning (SFT), indicating that RL-based approaches can be effective without large datasets; 3) The explicit reasoning process has not shown significant benefits for AQA tasks, and how to efficiently utilize deep thinking remains an open question for further research; 4) LALMs still lag far behind humans auditory-language reasoning, suggesting that the RL-based approaches warrant further exploration. Our project is available at https://github.com/xiaomi-research/r1-aqa and https://huggingface.co/mispeech/r1-aqa.