Reward Is Enough: LLMs Are In-Context Reinforcement Learners

作者: Kefan Song, Amir Moeini, Peng Wang, Lei Gong, Rohan Chandra, Shangtong Zhang, Yanjun Qi

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-05-21 (更新: 2026-01-07)

💡 一句话要点

提出ICRL：利用上下文学习，使LLM在推理时进行强化学习自我提升

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 上下文学习 强化学习 大型语言模型 推理时优化 自我改进

📋 核心要点

现有方法难以使LLM在推理阶段进行自我迭代优化，缺乏有效的反馈机制。
论文提出ICRL提示框架，通过多轮交互和奖励反馈，引导LLM在上下文学习中进行强化学习。
实验表明，ICRL在多个任务上显著优于现有方法，即使奖励由LLM自身生成也能提升性能。

📝 摘要（中文）

本文揭示了大型语言模型（LLM）在推理过程中涌现出强化学习（RL）能力，称之为上下文强化学习（ICRL）。为此，作者提出了一种简单的多轮提示框架，即ICRL提示，旨在引导LLM在推理时执行强化学习，从而在给定任务上实现自我改进。在每一轮回复后，模型接收到数值标量反馈，即奖励。在下一轮中，作者再次提示LLM，并提供包含所有先前回复及其相关奖励的上下文。实验结果表明，随着上下文的增长，回复质量持续提高。换句话说，LLM可以在推理过程中优化标量奖励信号，表现出类似于强化学习的行为。作者在24点游戏、创意写作、ScienceWorld以及奥林匹克级别的数学竞赛（AIME和HMMT）上评估了ICRL提示，结果表明，相对于Self-Refine和Reflexion等基线方法，ICRL提示取得了显著的改进。值得注意的是，即使奖励信号由同一个LLM生成，ICRL提示仍然可以提高性能，这突显了一种有前景的测试时扩展新范式。

🔬 方法详解

问题定义：论文旨在解决如何使大型语言模型（LLM）在推理阶段进行自我改进的问题。现有的方法，如Self-Refine和Reflexion，虽然能够通过自我反思来改进答案，但缺乏一种有效的、能够像强化学习一样利用奖励信号进行迭代优化的机制。这些方法通常依赖于预定义的规则或启发式方法，难以适应复杂和动态的任务环境。

核心思路：论文的核心思路是利用LLM的上下文学习能力，将强化学习过程融入到LLM的推理过程中。通过将之前的回复和奖励作为上下文输入到LLM中，LLM可以学习到如何根据奖励信号来改进后续的回复，从而实现自我提升。这种方法的核心在于将LLM视为一个在上下文中进行强化学习的智能体。

技术框架：ICRL提示框架包含以下几个主要步骤：1) 初始提示：向LLM提出任务描述。2) 回复生成：LLM根据提示生成回复。3) 奖励评估：根据回复质量，给予LLM一个数值奖励。4) 上下文更新：将之前的回复和奖励添加到上下文中。5) 迭代：重复步骤1-4，直到达到预定的迭代次数或满足停止条件。在每一轮迭代中，LLM都会接收到包含之前所有回复和奖励的上下文，从而能够学习到如何根据奖励信号来改进后续的回复。

关键创新：论文最重要的技术创新点在于将强化学习的思想融入到LLM的上下文学习中，提出了一种新的推理时自我改进范式。与现有的方法相比，ICRL提示框架能够更有效地利用奖励信号进行迭代优化，并且不需要对LLM进行额外的训练。此外，ICRL提示框架还具有很强的通用性，可以应用于各种不同的任务。

关键设计：奖励函数的设计是ICRL提示框架中的一个关键环节。论文中使用了不同的奖励函数，包括人工设计的奖励函数和由LLM生成的奖励函数。对于由LLM生成的奖励函数，论文使用了不同的提示策略来引导LLM生成更准确的奖励信号。此外，论文还探索了不同的上下文长度和迭代次数对ICRL提示框架性能的影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ICRL提示框架在24点游戏、创意写作、ScienceWorld以及奥林匹克级别的数学竞赛（AIME和HMMT）上都取得了显著的改进。例如，在AIME数学竞赛中，ICRL提示框架的性能比Self-Refine提高了超过10%。更重要的是，即使奖励信号由同一个LLM生成，ICRL提示框架仍然可以提高性能，这表明ICRL提示框架具有很强的鲁棒性和泛化能力。

🎯 应用场景

ICRL提示框架具有广泛的应用前景，可以应用于各种需要LLM进行推理和决策的任务中，例如游戏、机器人控制、自然语言处理等。该方法可以提高LLM在复杂任务中的性能，并降低对人工干预的依赖。未来，ICRL提示框架可以与其他技术相结合，例如模仿学习和主动学习，以进一步提高LLM的智能水平。

📄 摘要（原文）

Reinforcement learning (RL) is a framework for solving sequential decision-making problems. In this work, we demonstrate that, surprisingly, RL emerges during the inference time of large language models (LLMs), a phenomenon we term in-context RL (ICRL). To reveal this capability, we introduce a simple multi-round prompting framework, we call ICRL prompting, for inference-time self-improvement. The goal of ICRL prompting is to guide LLMs to perform reinforcement learning during inference for self-improvement on a given task. After each response, the model receives numerical scalar feedback, denoted as a reward. In the next round, we prompt the LLM again together with a context that concatenates all prior responses and their associated rewards. We consistently observe that response quality improves as the context grows. In other words, the LLM can optimize scalar reward signals during inference, exhibiting behavior analogous to reinforcement learning. We evaluate ICRL prompting on Game of 24, creative writing, ScienceWorld, and Olympiad-level math competitions (AIME and HMMT), demonstrating significant improvements over baselines such as Self-Refine and Reflexion. Notably, even when the reward signals are generated by the same LLM, ICRL prompting still improves performance, highlighting a promising new paradigm for test-time scaling.

Reward Is Enough: LLMs Are In-Context Reinforcement Learners

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理