MoL-RL: Distilling Multi-Step Environmental Feedback into LLMs for Feedback-Independent Reasoning

📄 arXiv: 2507.20278v1 📥 PDF

作者: Kang Yang, Jingxue Chen, Qingkun Tang, Tianxiang Zhang, Qianchun Lu

分类: cs.CL

发布日期: 2025-07-27

备注: 12pages,3figures


💡 一句话要点

MoL-RL:通过将多步环境反馈提炼到LLM中,实现反馈独立的推理

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 环境反馈 思维链推理 持续学习 策略优化 数学推理 代码生成

📋 核心要点

  1. 现有方法在利用环境反馈进行LLM的思维链推理时,存在信息损失和无法有效利用多步反馈的问题。
  2. MoL-RL通过双目标优化框架,将多步环境反馈信号集成到LLM中,实现反馈独立的推理。
  3. 实验表明,MoL-RL在数学推理和代码生成任务上取得了SOTA性能,并具有良好的模型泛化能力。

📝 摘要(中文)

大型语言模型(LLMs)在有效利用序列环境反馈(EF)信号(例如自然语言评估)进行反馈独立的思维链(CoT)推理方面面临重大挑战。现有方法要么将EF转换为标量奖励,从而丢失丰富的上下文信息,要么采用改进数据集,而未能利用EF交互的多步和离散性质。为了解决这些局限性,我们提出了一种新颖的训练范式MoL-RL,该范式通过双目标优化框架将多步EF信号集成到LLM中。我们的方法结合了MoL(损失混合)持续训练(将特定于领域的EF信号(通过交叉熵损失优化)和通用语言能力(通过Kullback-Leibler散度保留)解耦)与基于GRPO的后训练,以将序列EF交互提炼为单步推理。这种协同作用实现了强大的反馈独立推理,而无需依赖外部反馈循环。在数学推理(MATH-500、AIME24/AIME25)和代码生成(CodeAgent-Test)基准测试上的实验结果表明,MoL-RL使用Qwen3-8B模型实现了最先进的性能,同时保持了跨模型规模(Qwen3-4B)的强大泛化能力。这项工作为利用多步文本反馈来增强LLM在不同领域的推理能力提供了一种有希望的方法。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)难以有效利用序列环境反馈(EF)信号进行反馈独立的思维链(CoT)推理的问题。现有方法的痛点在于,将丰富的文本反馈简化为标量奖励会丢失上下文信息,或者依赖于改进数据集,无法充分利用多步反馈的离散特性。

核心思路:论文的核心思路是将多步环境反馈提炼到LLM中,使其能够进行反馈独立的推理。通过结合MoL持续训练和基于GRPO的后训练,将序列环境反馈交互转化为单步推理,从而避免了对外部反馈循环的依赖。

技术框架:MoL-RL的整体框架包含两个主要阶段:MoL持续训练和GRPO后训练。MoL持续训练使用双目标优化,解耦特定领域的环境反馈信号和通用语言能力。GRPO后训练则将序列环境反馈交互提炼为单步推理。

关键创新:MoL-RL的关键创新在于其双目标优化框架和将多步反馈提炼为单步推理的能力。与现有方法相比,MoL-RL能够更有效地利用环境反馈中的信息,并实现更强的反馈独立推理能力。

关键设计:MoL持续训练使用交叉熵损失优化特定领域的环境反馈信号,并使用Kullback-Leibler散度保留通用语言能力。GRPO后训练使用Generalized Policy Optimization (GRPO)算法,将多步反馈序列压缩为单步策略。具体参数设置和网络结构细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MoL-RL在数学推理(MATH-500、AIME24/AIME25)和代码生成(CodeAgent-Test)基准测试上取得了最先进的性能。具体而言,使用Qwen3-8B模型时,MoL-RL显著优于其他基线方法,并且在不同模型规模(Qwen3-4B)上保持了良好的泛化能力。这些结果证明了MoL-RL在利用多步文本反馈增强LLM推理能力方面的有效性。

🎯 应用场景

MoL-RL具有广泛的应用前景,可以应用于需要序列反馈的各种任务,例如机器人控制、对话系统、教育辅导等。通过将环境反馈提炼到LLM中,可以提高LLM在这些任务中的推理能力和决策质量,并减少对人工干预的依赖。该研究的成果有助于推动LLM在实际应用中的发展。

📄 摘要(原文)

Large language models (LLMs) face significant challenges in effectively leveraging sequential environmental feedback (EF) signals, such as natural language evaluations, for feedback-independent chain-of-thought (CoT) reasoning. Existing approaches either convert EF into scalar rewards, losing rich contextual information, or employ refinement datasets, failing to exploit the multi-step and discrete nature of EF interactions. To address these limitations, we propose MoL-RL, a novel training paradigm that integrates multi-step EF signals into LLMs through a dual-objective optimization framework. Our method combines MoL (Mixture-of-Losses) continual training, which decouples domain-specific EF signals (optimized via cross-entropy loss) and general language capabilities (preserved via Kullback-Leibler divergence), with GRPO-based post-training to distill sequential EF interactions into single-step inferences. This synergy enables robust feedback-independent reasoning without relying on external feedback loops. Experimental results on mathematical reasoning (MATH-500, AIME24/AIME25) and code generation (CodeAgent-Test) benchmarks demonstrate that MoL-RL achieves state-of-the-art performance with the Qwen3-8B model, while maintaining strong generalization across model scales (Qwen3-4B). This work provides a promising approach for leveraging multi-step textual feedback to enhance LLMs' reasoning capabilities in diverse domains.