MulFeRL: Enhancing Reinforcement Learning with Verbal Feedback in a Multi-turn Loop

📄 arXiv: 2601.22900v1 📥 PDF

作者: Xuancheng Li, Haitao Li, Yujia Zhou, YiqunLiu, Qingyao Ai

分类: cs.AI

发布日期: 2026-01-30


💡 一句话要点

MulFeRL:多轮循环中利用口头反馈增强强化学习

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 口头反馈 多轮交互 可验证奖励 数学推理

📋 核心要点

  1. 现有RLVR方法在失败样本上奖励稀疏,缺乏对失败原因的洞察,限制了学习效率。
  2. 提出MulFeRL框架,通过多轮交互式口头反馈,为失败样本提供更丰富的指导信号。
  3. 实验表明,MulFeRL在数学推理任务上,显著优于监督微调和RLVR基线,并具有良好的泛化能力。

📝 摘要(中文)

具有可验证奖励的强化学习(RLVR)被广泛应用于提高多个领域的推理能力,但仅有结果的标量奖励通常是稀疏且信息不足的,尤其是在失败样本上,它们仅仅表明失败,而没有提供关于推理失败原因的洞察。在本文中,我们研究了如何利用更丰富的口头反馈来指导RLVR在失败样本上的训练,以及如何将这种反馈转化为可训练的学习信号。具体来说,我们提出了一个多轮反馈引导的强化学习框架。它建立在三个机制之上:(1)由反馈引导的动态多轮再生,仅在失败样本上触发,(2)用于回合内和跨回合优化的两个互补学习信号,以及(3)结构化的反馈注入到模型的推理过程中。在采样的OpenR1-Math上训练,该方法在领域内优于监督微调和RLVR基线,并且在领域外泛化良好。

🔬 方法详解

问题定义:现有基于可验证奖励的强化学习(RLVR)方法在处理失败样本时,通常只能获得一个标量奖励,表明失败。这种稀疏的奖励信号无法提供关于推理失败原因的详细信息,导致学习效率低下。论文旨在解决如何利用更丰富的反馈信息,特别是口头反馈,来指导RLVR在失败样本上的训练,从而提高学习效率和性能。

核心思路:论文的核心思路是引入一个多轮反馈机制,当模型在推理过程中失败时,不是简单地给予一个负奖励,而是通过与环境进行多轮交互,获取更详细的口头反馈。这些反馈信息可以帮助模型理解失败的原因,并指导其进行更有效的学习。通过将口头反馈转化为可训练的学习信号,可以更充分地利用这些信息来优化模型的策略。

技术框架:MulFeRL框架包含以下几个主要模块:1) 动态多轮再生模块:仅在失败样本上触发,根据环境的口头反馈,动态地生成新的推理步骤。2) 双重学习信号模块:包含回合内学习信号和跨回合学习信号,分别用于优化当前回合的推理和跨回合的策略。3) 结构化反馈注入模块:将口头反馈以结构化的方式注入到模型的推理过程中,例如通过注意力机制或记忆网络。整体流程是,模型首先进行推理,如果失败,则触发多轮再生模块,获取口头反馈,然后利用双重学习信号模块进行优化。

关键创新:该论文的关键创新在于:1) 提出了一个多轮反馈引导的强化学习框架,能够有效地利用口头反馈来指导RLVR的训练。2) 设计了双重学习信号,分别用于回合内和跨回合的优化,从而更充分地利用了反馈信息。3) 提出了结构化的反馈注入方法,将口头反馈有效地融入到模型的推理过程中。

关键设计:在多轮再生模块中,使用了基于Transformer的语言模型来生成新的推理步骤,并使用了注意力机制来关注环境的口头反馈。在双重学习信号模块中,回合内学习信号基于模仿学习,鼓励模型模仿环境的反馈,跨回合学习信号基于强化学习,鼓励模型探索更有效的策略。损失函数包括模仿学习损失和强化学习损失,以及一个正则化项,用于防止模型过度拟合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MulFeRL在OpenR1-Math数据集上显著优于监督微调和RLVR基线。具体来说,MulFeRL在领域内测试集上的准确率比RLVR基线提高了10%以上,并且在领域外测试集上表现出良好的泛化能力。这些结果表明,MulFeRL能够有效地利用口头反馈来指导强化学习,并提高模型的推理能力。

🎯 应用场景

该研究成果可应用于需要复杂推理和决策的领域,例如数学问题求解、代码生成、对话系统等。通过引入口头反馈机制,可以显著提高强化学习模型的学习效率和性能,使其能够更好地解决实际问题。未来,该方法有望扩展到更广泛的应用场景,例如机器人控制、游戏AI等。

📄 摘要(原文)

Reinforcement Learning with Verifiable Rewards (RLVR) is widely used to improve reasoning in multiple domains, yet outcome-only scalar rewards are often sparse and uninformative, especially on failed samples, where they merely indicate failure and provide no insight into why the reasoning fails. In this paper, we investigate how to leverage richer verbal feedback to guide RLVR training on failed samples, and how to convert such feedback into a trainable learning signal. Specifically, we propose a multi-turn feedback-guided reinforcement learning framework. It builds on three mechanisms: (1) dynamic multi-turn regeneration guided by feedback, triggered only on failed samples, (2) two complementary learning signals for within-turn and cross-turn optimization, and (3) structured feedback injection into the model's reasoning process. Trained on sampled OpenR1-Math, the approach outperforms supervised fine-tuning and RLVR baselines in-domain and generalizes well out-of-domain.