On the Emergence of Thinking in LLMs I: Searching for the Right Intuition

📄 arXiv: 2502.06773v1 📥 PDF

作者: Guanghao Ye, Khiem Duc Pham, Xinzhi Zhang, Sivakanth Gopi, Baolin Peng, Beibin Li, Janardhan Kulkarni, Huseyin A. Inan

分类: cs.AI, cs.CL, cs.LG

发布日期: 2025-02-10

备注: Abstract shortened for arXiv


💡 一句话要点

提出基于自博弈的强化学习(RLSP)框架,提升LLM的推理能力并涌现复杂行为。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 大型语言模型 强化学习 推理能力 自博弈 探索奖励

📋 核心要点

  1. 现有LLM推理方法缺乏有效的探索机制,难以在复杂问题空间中找到最优解,且训练成本高昂。
  2. 提出RLSP框架,通过自博弈强化学习解耦探索和正确性信号,鼓励模型进行多样化和高效的推理搜索。
  3. 实验表明,RLSP显著提升了LLM在数学问题上的推理性能,并涌现了回溯、验证等复杂推理行为。

📝 摘要(中文)

随着OpenAI等公司的最新模型发展,大型语言模型(LLM)正转变为大型推理模型(LRM),它们在推理过程中消耗更多时间和计算资源以获得更高质量的输出。本文旨在揭示训练LRM的算法框架。借鉴自洽性、PRM和AlphaZero等方法,作者认为推理是一种引导搜索。因此,论文探讨了在LLM中实现搜索的最简单、最具可扩展性的方法。作者提出了一种名为基于自博弈的强化学习(RLSP)的后训练框架。RLSP包括三个步骤:(1)使用人工或合成的推理过程演示进行监督微调;(2)使用探索奖励信号来鼓励多样化和高效的推理行为;(3)使用结果验证器进行强化学习训练,以确保正确性并防止奖励利用。该方法的核心创新在于在PPO训练期间解耦探索和正确性信号,并仔细平衡它们以提高性能和效率。在数学领域的实证研究表明,RLSP可以提高推理能力。在Llama-3.1-8B-Instruct模型上,RLSP可以将MATH-500测试集上的性能提高23%;在AIME 2024数学问题上,Qwen2.5-32B-Instruct的性能提高了10%。更重要的是,使用RLSP训练的模型,即使使用最简单的鼓励模型采取更多中间步骤的探索奖励,也表现出一些涌现行为,如回溯、想法探索和验证。这些发现表明,当扩展时,RLSP框架可能足以使LLM涌现复杂的推理能力。最后,作者提出了一个理论,解释为什么RLSP搜索策略更适合LLM,该理论受到一个显著结果的启发,即CoT可以证明地提高LLM的计算能力,并且随着CoT中的步骤数量而增长。

🔬 方法详解

问题定义:论文旨在解决如何使大型语言模型(LLM)具备更强的推理能力,并涌现出类似人类的复杂推理行为,例如回溯、探索和验证。现有方法,如直接微调或链式思考(CoT),在复杂问题上表现不足,且缺乏有效的探索机制,难以找到最优解。此外,这些方法往往需要大量人工标注数据或复杂的训练流程,成本较高。

核心思路:论文的核心思路是将推理过程视为一个搜索过程,并利用强化学习(RL)来引导LLM进行更有效的搜索。通过解耦探索和正确性信号,鼓励模型探索不同的推理路径,同时确保最终答案的正确性。这种方法旨在克服现有方法在探索能力和训练效率方面的局限性。

技术框架:RLSP框架包含三个主要阶段:1) 监督微调(SFT):使用人工或合成的推理过程演示数据对LLM进行微调,使其初步具备推理能力。2) 探索奖励设计:设计一个探索奖励信号,鼓励模型采取更多中间步骤,探索不同的推理路径。例如,可以简单地奖励模型采取更多步骤。3) 强化学习训练:使用近端策略优化(PPO)算法进行强化学习训练,同时使用一个结果验证器来判断最终答案的正确性,并给予相应的奖励。在PPO训练中,探索奖励和正确性奖励被解耦,并进行仔细的平衡。

关键创新:RLSP的关键创新在于解耦了探索和正确性信号,并利用自博弈的方式进行强化学习。传统的强化学习方法往往难以在复杂的推理任务中取得好的效果,因为奖励信号稀疏且难以设计。RLSP通过引入探索奖励,鼓励模型进行更广泛的搜索,从而更容易找到最优解。同时,通过结果验证器来确保最终答案的正确性,防止模型为了获得奖励而采取不正确的推理步骤。

关键设计:在PPO训练中,需要仔细平衡探索奖励和正确性奖励。如果探索奖励过高,模型可能会过度探索,导致最终答案不正确。如果正确性奖励过高,模型可能会陷入局部最优解,无法进行有效的探索。论文中具体如何平衡这两个奖励信号的细节未知。此外,结果验证器的设计也很重要,需要能够准确判断最终答案的正确性。具体实现方式未知。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,RLSP框架能够显著提升LLM在数学问题上的推理性能。在Llama-3.1-8B-Instruct模型上,RLSP可以将MATH-500测试集上的性能提高23%。在AIME 2024数学问题上,Qwen2.5-32B-Instruct的性能提高了10%。更重要的是,使用RLSP训练的模型涌现了回溯、想法探索和验证等复杂推理行为。

🎯 应用场景

RLSP框架可应用于各种需要复杂推理能力的场景,例如数学问题求解、代码生成、逻辑推理、以及决策制定等。通过提升LLM的推理能力,可以使其在这些领域发挥更大的作用,例如自动生成高质量的代码、辅助医生进行诊断、或者为企业提供更智能的决策支持。

📄 摘要(原文)

Recent AI advancements, such as OpenAI's new models, are transforming LLMs into LRMs (Large Reasoning Models) that perform reasoning during inference, taking extra time and compute for higher-quality outputs. We aim to uncover the algorithmic framework for training LRMs. Methods like self-consistency, PRM, and AlphaZero suggest reasoning as guided search. We ask: what is the simplest, most scalable way to enable search in LLMs? We propose a post-training framework called Reinforcement Learning via Self-Play (RLSP). RLSP involves three steps: (1) supervised fine-tuning with human or synthetic demonstrations of the reasoning process, (2) using an exploration reward signal to encourage diverse and efficient reasoning behaviors, and (3) RL training with an outcome verifier to ensure correctness while preventing reward hacking. Our key innovation is to decouple exploration and correctness signals during PPO training, carefully balancing them to improve performance and efficiency. Empirical studies in the math domain show that RLSP improves reasoning. On the Llama-3.1-8B-Instruct model, RLSP can boost performance by 23% in MATH-500 test set; On AIME 2024 math problems, Qwen2.5-32B-Instruct improved by 10% due to RLSP. However, a more important finding of this work is that the models trained using RLSP, even with the simplest exploration reward that encourages the model to take more intermediate steps, showed several emergent behaviors such as backtracking, exploration of ideas, and verification. These findings demonstrate that RLSP framework might be enough to enable emergence of complex reasoning abilities in LLMs when scaled. Lastly, we propose a theory as to why RLSP search strategy is more suitable for LLMs inspired by a remarkable result that says CoT provably increases computational power of LLMs, which grows as the number of steps in CoT \cite{li2024chain,merrill2023expresssive}.