When Actions Teach You to Think: Reasoning-Action Synergy via Reinforcement Learning in Conversational Agents

📄 arXiv: 2512.11277v1 📥 PDF

作者: Mrinal Rawat, Arkajyoti Chakraborty, Neha Gupta, Roberto Pieraccini

分类: cs.CL, cs.LG

发布日期: 2025-12-12


💡 一句话要点

提出基于强化学习的推理-行动协同方法,提升对话Agent的泛化能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对话Agent 强化学习 推理学习 策略优化 泛化能力

📋 核心要点

  1. 现有监督微调方法在数据分布变化时泛化能力不足,且高质量推理数据标注成本高昂。
  2. 利用强化学习,模型直接从任务结果中学习推理策略,无需人工标注推理轨迹。
  3. 实验表明,该方法显著提升了推理质量和工具调用精度,优于传统监督微调方法。

📝 摘要(中文)

监督微调(SFT)已成为提升大型语言模型(LLM)在下游任务中性能的有效方法。然而,当底层数据分布发生变化时,即使新数据并未完全超出训练领域,SFT也可能难以泛化。最近以推理为中心的模型,如o1和R1,已经证明了相对于非推理模型的持续优势,突出了推理对于提高泛化能力和可靠性的重要性。然而,为SFT收集高质量的推理轨迹仍然具有挑战性——标注成本高昂、主观且难以扩展。为了解决这个限制,我们利用强化学习(RL)使模型能够直接从任务结果中学习推理策略。我们提出了一种pipeline,其中LLM生成推理步骤,指导工具的调用(例如,函数调用)和对话Agent的最终答案生成。我们的方法采用Group Relative Policy Optimization (GRPO),奖励围绕工具准确性和答案正确性设计,允许模型迭代地改进其推理和行动。实验结果表明,我们的方法提高了推理质量和工具调用的精度,相对于SFT模型(在没有显式思考的情况下训练)实现了1.5%的相对改进,与vanilla Qwen3-1.7B模型相比,获得了40%的提升。这些发现证明了通过RL统一推理和行动学习来构建更强大和更具泛化能力的对话Agent的前景。

🔬 方法详解

问题定义:论文旨在解决对话Agent在面对数据分布变化时泛化能力不足的问题。现有监督微调方法依赖于大量标注数据,特别是高质量的推理轨迹,而这些数据的获取成本高昂且主观性强。因此,如何让模型在缺乏显式推理标注的情况下,学习到有效的推理策略,是本文要解决的核心问题。

核心思路:论文的核心思路是利用强化学习,让模型通过与环境的交互,直接从任务结果(例如,工具调用是否正确,答案是否正确)中学习推理策略。这种方法避免了对大量人工标注推理轨迹的依赖,并且能够使模型更好地适应新的数据分布。通过奖励机制,鼓励模型生成更准确的推理步骤,从而指导工具调用和答案生成。

技术框架:整体框架包含以下几个主要阶段:1) LLM生成推理步骤,并根据推理步骤调用工具;2) 根据工具调用结果和最终答案的正确性,计算奖励;3) 使用Group Relative Policy Optimization (GRPO)算法,根据奖励优化LLM的策略,从而改进推理步骤的生成。这个过程迭代进行,直到模型收敛。

关键创新:最重要的技术创新点在于将强化学习引入到对话Agent的推理学习中,并设计了合适的奖励函数,使得模型能够从任务结果中学习推理策略,而无需显式的推理标注。此外,使用GRPO算法进行策略优化,能够更有效地利用奖励信号,提升学习效率。

关键设计:奖励函数的设计是关键。论文中,奖励函数主要基于两个方面:工具调用的准确性和最终答案的正确性。具体来说,如果模型调用了正确的工具,则会获得正向奖励;如果最终答案是正确的,也会获得正向奖励。GRPO算法的具体参数设置(例如,学习率、batch size等)未知,但这些参数的选择会影响模型的收敛速度和最终性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在推理质量和工具调用精度方面均有显著提升。相对于SFT模型(在没有显式思考的情况下训练),实现了1.5%的相对改进。与vanilla Qwen3-1.7B模型相比,获得了40%的提升。这些数据表明,通过强化学习统一推理和行动学习,可以有效提升对话Agent的性能。

🎯 应用场景

该研究成果可应用于各种需要复杂推理和决策的对话Agent场景,例如智能客服、任务型对话系统、智能助手等。通过提升对话Agent的泛化能力和推理能力,可以提高用户满意度,降低人工干预成本,并扩展对话Agent的应用范围。

📄 摘要(原文)

Supervised fine-tuning (SFT) has emerged as one of the most effective ways to improve the performance of large language models (LLMs) in downstream tasks. However, SFT can have difficulty generalizing when the underlying data distribution changes, even when the new data does not fall completely outside the training domain. Recent reasoning-focused models such as o1 and R1 have demonstrated consistent gains over their non-reasoning counterparts, highlighting the importance of reasoning for improved generalization and reliability. However, collecting high-quality reasoning traces for SFT remains challenging -- annotations are costly, subjective, and difficult to scale. To address this limitation, we leverage Reinforcement Learning (RL) to enable models to learn reasoning strategies directly from task outcomes. We propose a pipeline in which LLMs generate reasoning steps that guide both the invocation of tools (e.g., function calls) and the final answer generation for conversational agents. Our method employs Group Relative Policy Optimization (GRPO) with rewards designed around tool accuracy and answer correctness, allowing the model to iteratively refine its reasoning and actions. Experimental results demonstrate that our approach improves both the quality of reasoning and the precision of tool invocations, achieving a 1.5% relative improvement over the SFT model (trained without explicit thinking) and a 40% gain compared to the base of the vanilla Qwen3-1.7B model. These findings demonstrate the promise of unifying reasoning and action learning through RL to build more capable and generalizable conversational agents.