Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates

作者: Yibo Li, Zijie Lin, Ailin Deng, Xuan Zhang, Yufei He, Shuo Ji, Tri Cao, Bryan Hooi

分类: cs.LG, cs.AI

发布日期: 2026-01-26

🔗 代码/项目: GITHUB

💡 一句话要点

提出JitRL，无需梯度更新实现LLM Agent的即时强化学习，提升持续学习能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 即时强化学习 持续学习 大型语言模型Agent 无训练方法 策略优化 经验记忆 动作优势

📋 核心要点

LLM Agent擅长通用任务，但部署后权重固定，难以持续适应新环境，传统强化学习成本高且易发生灾难性遗忘。
JitRL通过维护动态经验记忆，检索相关轨迹即时估计动作优势，直接调节LLM输出，实现无需训练的策略优化。
实验表明，JitRL在WebArena和Jericho上超越现有无训练方法，性能优于微调方法WebRL，成本降低30倍以上。

📝 摘要（中文）

大型语言模型（LLM）Agent在通用任务上表现出色，但由于部署后权重被冻结，它们在持续适应方面存在固有的困难。传统的强化学习（RL）提供了一种解决方案，但计算成本过高，并且存在灾难性遗忘的风险。我们引入了即时强化学习（JitRL），这是一个无需训练的框架，可以在测试时进行策略优化，而无需任何梯度更新。JitRL维护一个动态的、非参数的经验记忆，并检索相关的轨迹来即时估计动作优势。然后，这些估计值用于直接调节LLM的输出logits。我们从理论上证明，这种加性更新规则是KL约束策略优化目标的精确闭式解。在WebArena和Jericho上的大量实验表明，JitRL在无训练方法中建立了新的最先进水平。至关重要的是，JitRL的性能优于计算成本高昂的微调方法（例如，WebRL），同时降低了30倍以上的资金成本，为持续学习Agent提供了一条可扩展的路径。代码可在https://github.com/liushiliushi/JitRL 获得。

🔬 方法详解

问题定义：论文旨在解决LLM Agent在部署后无法持续学习和适应新环境的问题。现有方法，如微调，计算成本高昂，且容易发生灾难性遗忘。传统的强化学习方法虽然可以解决持续学习问题，但训练成本过高，不适用于LLM Agent。

核心思路：JitRL的核心思路是在测试时，通过维护一个动态的经验记忆，并根据当前状态检索相关的历史轨迹，来估计每个动作的优势函数。然后，利用这些优势函数来直接调整LLM的输出logits，从而实现策略的优化，而无需进行任何梯度更新。这种方法避免了昂贵的训练过程和灾难性遗忘的风险。

技术框架：JitRL的整体框架包括以下几个主要模块：1) 经验记忆模块：用于存储Agent与环境交互的历史轨迹。2) 轨迹检索模块：根据当前状态，从经验记忆中检索最相关的历史轨迹。3) 优势估计模块：利用检索到的轨迹，估计每个动作的优势函数。4) 策略更新模块：根据估计的优势函数，直接调整LLM的输出logits，实现策略的优化。

关键创新：JitRL最重要的技术创新点在于它是一种完全无需训练的强化学习方法。与传统的强化学习方法不同，JitRL不需要进行任何梯度更新，而是通过即时检索和优势估计来实现策略的优化。这使得JitRL能够以极低的计算成本实现持续学习，并且避免了灾难性遗忘的风险。此外，论文还从理论上证明了JitRL的更新规则是KL约束策略优化目标的精确闭式解。

关键设计：JitRL的关键设计包括：1) 经验记忆的存储和检索策略：如何有效地存储和检索历史轨迹，以保证检索的效率和准确性。2) 优势函数的估计方法：如何利用检索到的轨迹，准确地估计每个动作的优势函数。3) 策略更新的规则：如何根据估计的优势函数，有效地调整LLM的输出logits。论文中具体使用了余弦相似度进行轨迹检索，并采用加权平均的方式估计优势函数。策略更新采用加性更新规则，并从理论上证明了其合理性。

🖼️ 关键图片

📊 实验亮点

JitRL在WebArena和Jericho等benchmark上取得了显著的性能提升，超越了现有的无训练方法，并且在性能上优于需要大量计算资源的微调方法WebRL，同时将计算成本降低了30倍以上。这些实验结果表明，JitRL是一种高效且可扩展的持续学习方法。

🎯 应用场景

JitRL具有广泛的应用前景，可以应用于各种需要持续学习和适应的LLM Agent场景，例如：智能客服、游戏AI、自动驾驶等。该方法能够显著降低训练成本，提高Agent的适应能力，并有望推动LLM Agent在实际应用中的普及。

📄 摘要（原文）

While Large Language Model (LLM) agents excel at general tasks, they inherently struggle with continual adaptation due to the frozen weights after deployment. Conventional reinforcement learning (RL) offers a solution but incurs prohibitive computational costs and the risk of catastrophic forgetting. We introduce Just-In-Time Reinforcement Learning (JitRL), a training-free framework that enables test-time policy optimization without any gradient updates. JitRL maintains a dynamic, non-parametric memory of experiences and retrieves relevant trajectories to estimate action advantages on-the-fly. These estimates are then used to directly modulate the LLM's output logits. We theoretically prove that this additive update rule is the exact closed-form solution to the KL-constrained policy optimization objective. Extensive experiments on WebArena and Jericho demonstrate that JitRL establishes a new state-of-the-art among training-free methods. Crucially, JitRL outperforms the performance of computationally expensive fine-tuning methods (e.g., WebRL) while reducing monetary costs by over 30 times, offering a scalable path for continual learning agents. The code is available at https://github.com/liushiliushi/JitRL.

Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理