In-Context Reinforcement Learning for Tool Use in Large Language Models
作者: Yaoqi Ye, Yiran Zhao, Keyu Duan, Zeyu Zheng, Kenji Kawaguchi, Cihang Xie, Michael Qizhe Shieh
分类: cs.AI
发布日期: 2026-03-09
💡 一句话要点
提出ICRL,一种无需SFT的上下文强化学习方法,提升LLM工具使用能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 上下文学习 强化学习 大型语言模型 工具使用 零样本学习
📋 核心要点
- 现有LLM工具使用方法依赖SFT,需要大量标注数据,成本高昂。
- ICRL利用上下文学习,在RL rollout阶段通过示例提示模型调用工具,无需SFT。
- 实验表明,ICRL在多个基准测试中达到SOTA,是一种高效的替代方案。
📝 摘要(中文)
大型语言模型(LLM)虽然展现出强大的推理能力,但其在复杂任务上的表现常常受限于内部知识的局限性。一个引人注目的解决方案是用外部工具来增强这些模型,例如用于数学计算的Python解释器或用于检索事实信息的搜索引擎。然而,使模型能够有效地使用这些工具仍然是一个重大的挑战。现有的方法通常依赖于从监督微调(SFT)开始的冷启动流程,然后进行强化学习(RL)。这些方法通常需要大量的标注数据用于SFT,而这些数据的标注或合成成本很高。在这项工作中,我们提出了上下文强化学习(ICRL),这是一个纯RL框架,通过在RL的rollout阶段利用少样本提示来消除对SFT的需求。具体来说,ICRL在rollout提示中引入上下文示例,以教导模型如何调用外部工具。此外,随着训练的进行,上下文示例的数量逐渐减少,最终达到零样本设置,模型学会独立调用工具。我们在各种推理和工具使用基准上进行了广泛的实验。结果表明,ICRL实现了最先进的性能,证明了其作为传统基于SFT的流程的可扩展、数据高效的替代方案的有效性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在复杂任务中因内部知识限制而难以有效利用外部工具的问题。现有方法通常依赖于监督微调(SFT)后再进行强化学习(RL)的流程,但SFT需要大量的标注数据,标注或合成这些数据的成本很高,限制了方法的应用。
核心思路:论文的核心思路是利用上下文学习(In-Context Learning)的能力,在强化学习的rollout阶段,通过提供少量的上下文示例来引导LLM学习如何调用外部工具。随着训练的进行,逐步减少上下文示例的数量,最终使模型能够在零样本的情况下独立调用工具。这样可以避免对大量标注数据的依赖,提高数据效率。
技术框架:ICRL的整体框架是一个纯强化学习流程。在rollout阶段,模型接收到一个包含任务描述和少量上下文示例的提示。这些上下文示例展示了如何使用工具来解决类似的任务。模型根据提示生成动作序列,包括调用工具和给出最终答案。环境执行这些动作,并返回奖励信号。RL算法根据奖励信号更新模型的策略。
关键创新:ICRL最重要的技术创新点在于将上下文学习与强化学习相结合,从而避免了对监督微调的依赖。与传统的SFT+RL方法相比,ICRL无需标注数据,只需要少量的人工设计的上下文示例。此外,ICRL还采用了逐步减少上下文示例数量的策略,使模型能够逐渐适应零样本环境。
关键设计:ICRL的关键设计包括:1)精心设计的上下文示例,这些示例需要清晰地展示如何使用工具来解决任务;2)合适的奖励函数,用于引导模型学习正确的工具使用策略;3)逐步减少上下文示例数量的策略,例如线性衰减或指数衰减。具体的RL算法可以选择常见的算法,如PPO或SAC。论文中没有明确提及具体的网络结构,但通常会采用Transformer结构作为LLM的骨干网络。
📊 实验亮点
ICRL在多个推理和工具使用基准测试中取得了SOTA性能,证明了其有效性。与传统的SFT+RL方法相比,ICRL无需标注数据,只需要少量的人工设计的上下文示例,大大降低了训练成本。实验结果表明,ICRL在数据效率方面具有显著优势。
🎯 应用场景
ICRL具有广泛的应用前景,可以应用于各种需要LLM与外部工具交互的场景,例如:科学计算、数据分析、知识检索、智能客服等。该方法可以降低LLM工具使用的成本,提高其效率和泛化能力,促进LLM在实际应用中的落地。
📄 摘要(原文)
While large language models (LLMs) exhibit strong reasoning abilities, their performance on complex tasks is often constrained by the limitations of their internal knowledge. A compelling approach to overcome this challenge is to augment these models with external tools -- such as Python interpreters for mathematical computations or search engines for retrieving factual information. However, enabling models to use these tools effectively remains a significant challenge. Existing methods typically rely on cold-start pipelines that begin with supervised fine-tuning (SFT), followed by reinforcement learning (RL). These approaches often require substantial amounts of labeled data for SFT, which is expensive to annotate or synthesize. In this work, we propose In-Context Reinforcement Learning (ICRL), an RL-only framework that eliminates the need for SFT by leveraging few-shot prompting during the rollout stage of RL. Specifically, ICRL introduces in-context examples within the rollout prompts to teach the model how to invoke external tools. Furthermore, as training progresses, the number of in-context examples is gradually reduced, eventually reaching a zero-shot setting where the model learns to call tools independently. We conduct extensive experiments across a range of reasoning and tool-use benchmarks. Results show that ICRL achieves state-of-the-art performance, demonstrating its effectiveness as a scalable, data-efficient alternative to traditional SFT-based pipelines.