Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates
作者: Yibo Li, Zijie Lin, Ailin Deng, Xuan Zhang, Yufei He, Shuo Ji, Tri Cao, Bryan Hooi
分类: cs.LG, cs.AI
发布日期: 2026-01-26
🔗 代码/项目: GITHUB
💡 一句话要点
提出JitRL,无需梯度更新实现LLM Agent的即时强化学习,提升持续学习能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 即时强化学习 持续学习 大型语言模型Agent 无训练方法 策略优化 经验记忆 动作优势
📋 核心要点
- LLM Agent擅长通用任务,但部署后权重固定,难以持续适应新环境,传统强化学习成本高且易发生灾难性遗忘。
- JitRL通过维护动态经验记忆,检索相关轨迹即时估计动作优势,直接调节LLM输出,实现无需训练的策略优化。
- 实验表明,JitRL在WebArena和Jericho上超越现有无训练方法,性能优于微调方法WebRL,成本降低30倍以上。
📝 摘要(中文)
大型语言模型(LLM)Agent在通用任务上表现出色,但由于部署后权重被冻结,它们在持续适应方面存在固有的困难。传统的强化学习(RL)提供了一种解决方案,但计算成本过高,并且存在灾难性遗忘的风险。我们引入了即时强化学习(JitRL),这是一个无需训练的框架,可以在测试时进行策略优化,而无需任何梯度更新。JitRL维护一个动态的、非参数的经验记忆,并检索相关的轨迹来即时估计动作优势。然后,这些估计值用于直接调节LLM的输出logits。我们从理论上证明,这种加性更新规则是KL约束策略优化目标的精确闭式解。在WebArena和Jericho上的大量实验表明,JitRL在无训练方法中建立了新的最先进水平。至关重要的是,JitRL的性能优于计算成本高昂的微调方法(例如,WebRL),同时降低了30倍以上的资金成本,为持续学习Agent提供了一条可扩展的路径。代码可在https://github.com/liushiliushi/JitRL 获得。
🔬 方法详解
问题定义:论文旨在解决LLM Agent在部署后无法持续学习和适应新环境的问题。现有方法,如微调,计算成本高昂,且容易发生灾难性遗忘。传统的强化学习方法虽然可以解决持续学习问题,但训练成本过高,不适用于LLM Agent。
核心思路:JitRL的核心思路是在测试时,通过维护一个动态的经验记忆,并根据当前状态检索相关的历史轨迹,来估计每个动作的优势函数。然后,利用这些优势函数来直接调整LLM的输出logits,从而实现策略的优化,而无需进行任何梯度更新。这种方法避免了昂贵的训练过程和灾难性遗忘的风险。
技术框架:JitRL的整体框架包括以下几个主要模块:1) 经验记忆模块:用于存储Agent与环境交互的历史轨迹。2) 轨迹检索模块:根据当前状态,从经验记忆中检索最相关的历史轨迹。3) 优势估计模块:利用检索到的轨迹,估计每个动作的优势函数。4) 策略更新模块:根据估计的优势函数,直接调整LLM的输出logits,实现策略的优化。
关键创新:JitRL最重要的技术创新点在于它是一种完全无需训练的强化学习方法。与传统的强化学习方法不同,JitRL不需要进行任何梯度更新,而是通过即时检索和优势估计来实现策略的优化。这使得JitRL能够以极低的计算成本实现持续学习,并且避免了灾难性遗忘的风险。此外,论文还从理论上证明了JitRL的更新规则是KL约束策略优化目标的精确闭式解。
关键设计:JitRL的关键设计包括:1) 经验记忆的存储和检索策略:如何有效地存储和检索历史轨迹,以保证检索的效率和准确性。2) 优势函数的估计方法:如何利用检索到的轨迹,准确地估计每个动作的优势函数。3) 策略更新的规则:如何根据估计的优势函数,有效地调整LLM的输出logits。论文中具体使用了余弦相似度进行轨迹检索,并采用加权平均的方式估计优势函数。策略更新采用加性更新规则,并从理论上证明了其合理性。
🖼️ 关键图片
📊 实验亮点
JitRL在WebArena和Jericho等benchmark上取得了显著的性能提升,超越了现有的无训练方法,并且在性能上优于需要大量计算资源的微调方法WebRL,同时将计算成本降低了30倍以上。这些实验结果表明,JitRL是一种高效且可扩展的持续学习方法。
🎯 应用场景
JitRL具有广泛的应用前景,可以应用于各种需要持续学习和适应的LLM Agent场景,例如:智能客服、游戏AI、自动驾驶等。该方法能够显著降低训练成本,提高Agent的适应能力,并有望推动LLM Agent在实际应用中的普及。
📄 摘要(原文)
While Large Language Model (LLM) agents excel at general tasks, they inherently struggle with continual adaptation due to the frozen weights after deployment. Conventional reinforcement learning (RL) offers a solution but incurs prohibitive computational costs and the risk of catastrophic forgetting. We introduce Just-In-Time Reinforcement Learning (JitRL), a training-free framework that enables test-time policy optimization without any gradient updates. JitRL maintains a dynamic, non-parametric memory of experiences and retrieves relevant trajectories to estimate action advantages on-the-fly. These estimates are then used to directly modulate the LLM's output logits. We theoretically prove that this additive update rule is the exact closed-form solution to the KL-constrained policy optimization objective. Extensive experiments on WebArena and Jericho demonstrate that JitRL establishes a new state-of-the-art among training-free methods. Crucially, JitRL outperforms the performance of computationally expensive fine-tuning methods (e.g., WebRL) while reducing monetary costs by over 30 times, offering a scalable path for continual learning agents. The code is available at https://github.com/liushiliushi/JitRL.