Evolving-RL: End-to-End Optimization of Experience-Driven Self-Evolving Capability within Agents
作者: Zhiyuan Fan, Wenwei Jin, Feng Zhang, Bin Li, Yihong Dong, Yao Hu, Jiawei Li
分类: cs.AI
发布日期: 2026-05-11
备注: 17pages, 5 figures
💡 一句话要点
提出Evolving-RL框架,通过经验提取与利用的协同进化提升大模型的自我演化能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自我演化智能体 强化学习 经验蒸馏 大语言模型 协同进化 分布外泛化
📋 核心要点
- 现有研究多关注系统级经验管理,忽略了模型底层提取与利用能力的协同优化,导致智能体难以有效适应新任务。
- 提出Evolving-RL框架,通过联合优化经验提取器与求解器,利用评估信号实现两者的协同演化,将经验模式内化至模型参数。
- 实验证明该方法在ALFWorld和Mind2Web任务中表现卓越,在未见任务上实现了显著的性能增益,验证了协同进化机制的有效性。
📝 摘要(中文)
经验驱动的自我演化智能体旨在通过从历史交互中提炼可重用经验,克服大语言模型(LLM)的静态局限,从而实现部署阶段对新任务的适应。这一过程对基础模型的抽象、泛化及上下文学习能力提出了极高要求。然而,现有研究多侧重于系统级设计(如经验表示与管理),忽略了模型底层能力的优化;部分利用强化学习优化经验利用阶段的工作,也未能将自我演化视为一个统一的联合优化过程。为此,本文提出Evolving-RL框架,通过联合改进经验提取与利用能力,实现两者的协同进化。在ALFWorld和Mind2Web上的实验表明,Evolving-RL显著增强了LLM提取和重用经验的能力,在分布外任务上表现出强劲的性能提升(ALFWorld未见任务较GRPO基线提升达98.7%),证明了协同进化的必要性。
🔬 方法详解
问题定义:论文旨在解决大语言模型在处理复杂任务时,因缺乏有效的经验提炼与重用机制而导致的适应性不足问题。现有方法往往将经验管理与模型推理割裂,未能实现经验提取与利用的闭环优化。
核心思路:论文提出将“自我演化”视为一个统一的联合优化过程。核心思想是通过强化学习,让模型同时学习如何从历史交互中提取高质量经验,以及如何利用这些经验解决新问题,从而实现两者的协同进化。
技术框架:框架包含经验提取器(Extractor)和求解器(Solver)两个核心模块。系统通过评估过程产生两个监督信号,分别用于指导提取器的优化(提升经验质量)和求解器的优化(提升经验利用效率),形成闭环反馈。
关键创新:最重要的创新在于将经验提取与利用解耦后又通过协同机制重新整合。与传统仅优化推理过程的方法不同,Evolving-RL通过参数化方式将经验模式直接内化到模型权重中,使其具备了脱离测试时经验积累也能保持高性能的能力。
关键设计:该方法利用强化学习中的评估信号作为监督源,通过特定的奖励函数引导模型学习提取具有泛化性的经验模式,并采用联合训练策略确保提取器与求解器在演化过程中保持同步,避免了单方面优化带来的性能瓶颈。
🖼️ 关键图片
📊 实验亮点
Evolving-RL在ALFWorld和Mind2Web基准测试中表现优异。在ALFWorld未见任务中,相较于GRPO基线实现了98.7%的相对性能提升;在Mind2Web任务中提升达35.8%。实验证实,这种性能增益仅在经验提取与利用协同进化的条件下才能完全释放,且模型在无需测试时经验积累的情况下,依然优于标准基线。
🎯 应用场景
该研究适用于需要长期自主学习与适应的智能体系统,如具身智能机器人、自动化任务规划系统及复杂交互式AI助手。通过将经验内化为模型能力,该技术能显著提升AI在动态环境、长程任务及未见场景下的鲁棒性与泛化性能,具有广阔的工业应用前景。
📄 摘要(原文)
Experience-driven self-evolving agents aim to overcome the static nature of large language models by distilling reusable experience from past interactions, thus enabling adaptation to novel tasks at deployment time. This process places substantial demands on the foundation model's capacities for abstraction, generalization, and in-context learning. However, most existing studies focus primarily on system-level design choices, such as how experience is represented and managed, neglecting the inherent capabilities of the underlying model. While some recent works have started to optimize the experience utilization stage via reinforcement learning, they still fail to treat self-evolution as a unified process to be jointly optimized. To this end, we propose Evolving-RL, an efficient algorithmic framework that jointly improves the experience extraction and utilization capabilities required for self-evolution. Specifically, we center the learning process on experience extraction and evaluation, using the two supervisory signals derived from evaluation to optimize the extractor and solver separately and thus enable their coordinated co-evolution. Experiments on ALFWorld and Mind2Web show that Evolving-RL effectively enhances LLMs' ability to extract and reuse experience, leading to strong performance gains on out-of-distribution tasks (up to 98.7% relative improvement over the GRPO baseline on ALFWorld unseen tasks and 35.8% on Mind2Web), and these gains are fully unlocked only through the coordinated co-evolution of experience extraction and utilization. Furthermore, Evolving-RL inherently functions as an experience-augmented RL algorithm. By internalizing reusable experience patterns directly into model parameters, it achieves remarkable performance gains over standard baselines on both seen and unseen tasks, even in the absence of test-time experience accumulation.