Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering

作者: Gang Li, Jizhong Liu, Heinrich Dinkel, Yadong Niu, Junbo Zhang, Jian Luan

分类: cs.SD, cs.AI, cs.CL, eess.AS

发布日期: 2025-03-14 (更新: 2025-05-14)

🔗 代码/项目: GITHUB | HUGGINGFACE

💡 一句话要点

强化学习在音频问答任务中超越监督微调，实现更优性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 音频问答 强化学习 群体相对策略优化 大型音频语言模型 多模态学习

📋 核心要点

现有音频问答模型在推理能力上存在不足，尤其是在复杂场景下。
采用群体相对策略优化算法，直接优化模型在音频问答任务上的表现。
实验表明，强化学习方法在小样本情况下显著优于监督微调，并在MMAU测试集上取得SOTA结果。

📝 摘要（中文）

本文探讨了强化学习(RL)在音频理解和推理方面的应用，特别关注音频问答(AQA)任务。研究利用群体相对策略优化(GRPO)算法对Qwen2-Audio-7B-Instruct模型进行训练，实验结果表明，在MMAU Test-mini基准测试中，该方法达到了最先进的性能，准确率达到64.5%。主要发现包括：GRPO算法可以有效地应用于大型音频语言模型(LALM)，即使模型只有82亿参数；仅使用3.8万个后训练样本，RL显著优于监督微调(SFT)，表明基于RL的方法无需大型数据集也能有效；显式推理过程并未对AQA任务产生显著益处，如何有效利用深度思考仍是一个开放问题；LALM在听觉-语言推理方面仍然远远落后于人类，表明基于RL的方法值得进一步探索。

🔬 方法详解

问题定义：论文旨在解决音频问答（AQA）任务中，现有大型音频语言模型（LALM）推理能力不足的问题。传统的监督微调（SFT）方法依赖于大量标注数据，且难以有效提升模型的推理能力，尤其是在需要复杂推理的场景下。因此，如何利用更少的数据，提升LALM在AQA任务中的性能，是本文要解决的核心问题。

核心思路：论文的核心思路是利用强化学习（RL）直接优化LALM在AQA任务上的表现。通过将AQA任务建模为马尔可夫决策过程（MDP），并使用奖励函数来指导模型的学习，从而使模型能够更好地理解音频内容并生成准确的答案。这种方法的核心在于，它能够直接优化模型的最终目标，而无需像SFT那样依赖于中间标注数据。

技术框架：整体框架包括以下几个主要步骤：1) 使用Qwen2-Audio-7B-Instruct作为基础LALM；2) 构建AQA任务的MDP环境，包括状态、动作、奖励等；3) 使用群体相对策略优化（GRPO）算法训练LALM，使其能够根据当前状态选择最佳动作（即生成答案）；4) 在MMAU Test-mini基准测试中评估模型的性能。

关键创新：论文的关键创新在于将GRPO算法成功应用于LALM，并在AQA任务中取得了显著的性能提升。与传统的SFT方法相比，该方法能够在小样本情况下实现更好的性能，并且能够更有效地提升模型的推理能力。此外，论文还发现，显式推理过程并未对AQA任务产生显著益处，这为未来的研究提供了新的方向。

关键设计：论文的关键设计包括：1) 使用Qwen2-Audio-7B-Instruct作为基础模型，该模型具有较强的音频理解能力；2) 设计合适的奖励函数，以指导模型的学习，例如，可以使用答案的准确性作为奖励；3) 使用GRPO算法进行训练，该算法能够有效地探索策略空间，并找到最优策略；4) 使用MMAU Test-mini基准测试进行评估，该基准测试包含多种类型的音频问答问题。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用GRPO算法训练的Qwen2-Audio-7B-Instruct模型在MMAU Test-mini基准测试中取得了64.5%的准确率，达到了最先进的性能。更重要的是，该方法仅使用3.8万个后训练样本，就显著优于监督微调(SFT)方法，证明了强化学习在音频问答任务中的有效性。

🎯 应用场景

该研究成果可应用于智能语音助手、音频内容检索、自动语音摘要等领域。通过提升机器对音频内容的理解和推理能力，可以实现更智能、更高效的音频处理和应用，例如，在智能家居中，可以根据用户的语音指令，自动控制家电设备；在教育领域，可以自动生成音频课程的摘要。

📄 摘要（原文）

Recently, reinforcement learning (RL) has been shown to greatly enhance the reasoning capabilities of large language models (LLMs), and RL-based approaches have been progressively applied to visual multimodal tasks. However, the audio modality has largely been overlooked in these developments. Thus, we conduct a series of RL explorations in audio understanding and reasoning, specifically focusing on the audio question answering (AQA) task. We leverage the group relative policy optimization (GRPO) algorithm to Qwen2-Audio-7B-Instruct, and our experiments demonstrated state-of-the-art performance on the MMAU Test-mini benchmark, achieving an accuracy rate of 64.5%. The main findings in this technical report are as follows: 1) The GRPO algorithm can be effectively applied to large audio language models (LALMs), even when the model has only 8.2B parameters; 2) With only 38k post-training samples, RL significantly outperforms supervised fine-tuning (SFT), indicating that RL-based approaches can be effective without large datasets; 3) The explicit reasoning process has not shown significant benefits for AQA tasks, and how to efficiently utilize deep thinking remains an open question for further research; 4) LALMs still lag far behind humans auditory-language reasoning, suggesting that the RL-based approaches warrant further exploration. Our project is available at https://github.com/xiaomi-research/r1-aqa and https://huggingface.co/mispeech/r1-aqa.

Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理