Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code

📄 arXiv: 2507.07498v2 📥 PDF

作者: Keqin Bao, Nuo Chen, Xiaoyuan Li, Binyuan Hui, Bowen Yu, Fuli Feng, Xiangnan He, Dayiheng Liu

分类: cs.CL, cs.LG

发布日期: 2025-07-10 (更新: 2025-07-14)


💡 一句话要点

TeaR:通过算法问题强化学习,提升LLM的推理能力,无需编写代码。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 大型语言模型 推理能力 强化学习 算法问题 代码理解

📋 核心要点

  1. 现有方法让LLM模拟代码执行推理,但易过度依赖复杂数据结构和算法,导致过拟合。
  2. TeaR利用精心设计的数据和强化学习,引导LLM发现最优推理路径,提升通用推理能力。
  3. 实验结果表明,TeaR在多个基准测试中显著提升了模型性能,例如在Qwen2.5-7B上提升了35.9%。

📝 摘要(中文)

本文关注于提升大型语言模型(LLM)的推理能力。一个有前景的方向是让模型逐步模拟代码执行,从而为给定的输入推导出输出。然而,由于代码通常是为大型系统设计的,直接应用会导致过度依赖复杂的数据结构和算法,即使对于简单的情况也是如此,从而导致过度拟合算法模式,而不是核心推理结构。为了解决这个问题,我们提出了TeaR,旨在更好地教导LLM进行推理。TeaR利用精心策划的数据和强化学习来引导模型发现通过代码相关任务的最佳推理路径,从而提高一般的推理能力。我们使用两个基础模型和三个长上下文蒸馏模型进行了广泛的实验,模型大小从15亿到320亿参数不等,涵盖了数学、知识、代码和逻辑推理等17个基准。结果一致表明性能显着提高。值得注意的是,TeaR在Qwen2.5-7B上实现了35.9%的改进,在R1-Distilled-7B上实现了5.9%的改进。

🔬 方法详解

问题定义:现有方法在提升LLM推理能力时,倾向于让模型模拟代码执行。然而,这种方法容易使模型过度依赖代码中复杂的数据结构和算法,即使对于简单的推理问题也是如此。这导致模型学习到的是算法的模式,而非通用的推理能力,从而限制了模型的泛化能力。因此,需要一种方法,能够引导LLM学习更本质的推理过程,避免过度依赖代码细节。

核心思路:TeaR的核心思路是通过强化学习,引导LLM在解决算法问题时,学习最优的推理路径。与直接让模型生成代码不同,TeaR侧重于让模型理解算法背后的逻辑,并逐步推导出答案。通过精心设计的数据和奖励机制,TeaR鼓励模型探索不同的推理方式,并选择最有效的路径。这种方法旨在让模型学习到通用的推理模式,而不是特定的代码实现。

技术框架:TeaR的技术框架主要包括三个部分:数据准备、强化学习训练和模型评估。首先,需要构建一个包含算法问题的数据集,并对每个问题设计合理的推理步骤。然后,使用强化学习算法,训练LLM学习如何根据问题描述,逐步推导出答案。在训练过程中,模型会根据其推理的正确性和效率获得奖励。最后,使用一系列基准测试来评估模型的推理能力。

关键创新:TeaR的关键创新在于它使用强化学习来引导LLM学习推理,而不是直接让模型生成代码。这种方法避免了模型过度依赖代码细节,从而能够学习到更通用的推理能力。此外,TeaR还通过精心设计的数据和奖励机制,鼓励模型探索不同的推理方式,并选择最有效的路径。

关键设计:TeaR的关键设计包括:1) 使用精心策划的算法问题数据集,涵盖了不同的推理类型;2) 设计合理的奖励函数,鼓励模型进行正确且高效的推理;3) 使用合适的强化学习算法,例如策略梯度方法,来训练模型;4) 对模型的推理过程进行监控和分析,以便更好地理解模型的推理方式。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,TeaR在多个基准测试中显著提升了LLM的推理能力。例如,在Qwen2.5-7B模型上,TeaR实现了35.9%的性能提升;在R1-Distilled-7B模型上,实现了5.9%的性能提升。这些结果表明,TeaR是一种有效的提升LLM推理能力的方法,并且具有良好的泛化能力。

🎯 应用场景

TeaR具有广泛的应用前景,可用于提升LLM在数学、知识推理、代码理解和逻辑推理等领域的性能。该方法可以应用于智能问答、自然语言推理、代码生成等任务,提高LLM的可靠性和准确性。未来,TeaR有望成为提升通用人工智能的重要技术手段。

📄 摘要(原文)

Enhancing reasoning capabilities remains a central focus in the LLM reasearch community. A promising direction involves requiring models to simulate code execution step-by-step to derive outputs for given inputs. However, as code is often designed for large-scale systems, direct application leads to over-reliance on complex data structures and algorithms, even for simple cases, resulting in overfitting to algorithmic patterns rather than core reasoning structures. To address this, we propose TeaR, which aims at teaching LLMs to reason better. TeaR leverages careful data curation and reinforcement learning to guide models in discovering optimal reasoning paths through code-related tasks, thereby improving general reasoning abilities. We conduct extensive experiments using two base models and three long-CoT distillation models, with model sizes ranging from 1.5 billion to 32 billion parameters, and across 17 benchmarks spanning Math, Knowledge, Code, and Logical Reasoning. The results consistently show significant performance improvements. Notably, TeaR achieves a 35.9% improvement on Qwen2.5-7B and 5.9% on R1-Distilled-7B.