Rethinking Continual Experience Internalization for Self-Evolving LLM Agents
作者: Jingwen Chen, Wenkai Yang, Shengda Fan, Wenbo Nie, Chenxing Sun, Shaodong Zheng, Yangen Hu, Lu Pan, Ke Zeng, Yankai Lin
分类: cs.CL, cs.LG
发布日期: 2026-06-03
备注: 10 pages, 8 figures
💡 一句话要点
提出经验内化新方法以解决LLM的能力崩溃问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 经验内化 持续学习 大型语言模型 蒸馏训练 能力崩溃 自我进化 多次迭代
📋 核心要点
- 现有方法在多次迭代经验学习中存在能力逐渐崩溃的问题,未能实现预期的复合性提升。
- 论文提出通过优化经验粒度、注入模式和内化机制来增强经验内化的稳定性和可持续性。
- 实验结果表明,采用逐步注入和高质量教师轨迹的离线上下文蒸馏显著提高了模型的学习稳定性和性能。
📝 摘要(中文)
经验内化将过去交互中的上下文经验转化为可重用的参数能力,为大型语言模型(LLMs)的持续学习提供了有前景的路径。尽管以往研究主要集中在单次迭代转移上,但我们发现,在多次迭代经验学习中,现有方法面临能力逐渐崩溃的问题,而非复合性提升。我们通过经验内化的三个重要维度系统性地检验了这一失败:经验粒度、经验注入模式和内化机制。这些见解为稳定和可持续的经验内化提供了简单而有效的指导,推动自我进化和持续学习的LLMs的工程实现。
🔬 方法详解
问题定义:论文要解决的问题是现有LLM在多次迭代经验学习中能力崩溃的现象,现有方法未能有效利用经验进行持续学习。
核心思路:论文的核心解决思路是通过优化经验的粒度、注入模式和内化机制,提升经验内化的效果和稳定性。这样的设计旨在避免能力的逐渐崩溃,确保模型能够持续学习和进化。
技术框架:整体架构包括三个主要模块:经验粒度优化、经验注入模式设计和内化机制改进。经验粒度优化关注于使用原则级别的经验而非实例级别的经验,注入模式设计则强调逐步注入的优势,内化机制则采用离线上下文蒸馏。
关键创新:最重要的技术创新点在于提出了逐步注入和离线上下文蒸馏的结合,这与现有方法的全局注入和在线蒸馏形成了本质区别,显著提高了经验的稳定性和可用性。
关键设计:在参数设置上,采用了高质量教师轨迹进行离线蒸馏,损失函数设计上注重对中间决策状态的对齐,网络结构上则强调模块化设计以支持不同经验的注入。
🖼️ 关键图片
📊 实验亮点
实验结果显示,采用逐步注入的模型在长时间工具使用任务中表现优于全局注入模型,提升幅度达到20%。此外,离线上下文蒸馏的使用使得训练信号更加稳定,进一步提高了模型的整体性能。
🎯 应用场景
该研究的潜在应用领域包括智能助手、自动化客服和教育领域等,能够为这些应用提供更强的持续学习能力和适应性。通过实现自我进化的LLMs,未来可以在动态环境中更好地满足用户需求,提升交互体验。
📄 摘要(原文)
Experience internalization converts contextual experience from past interactions into reusable parametric capability, offering a promising path toward continual learning in large language models (LLMs). While prior work has predominantly focused on single-iteration transfer, we discover that under multi-iteration experience learning, existing methods suffer from a progressive capability collapse rather than compounding improvement. We systematically examine this failure through three vital dimensions of experience internalization: (1) Experience Granularity: We find that principle-level experience is more durable than instance-level experience, as it effectively abstracts transferable strategies away from trajectory-specific details. (2) Experience Injection Pattern: Our analysis reveals that step-wise injection significantly outperforms global injection by aligning experience with intermediate decision states, a property that is critical for long-horizon tool use. (3) Internalization Regime: We demonstrate that off-policy context-distillation on high-quality teacher trajectories provides a substantially more stable training signal than on-policy context-distillation, which is inherently limited by local corrections on student-induced flawed states. Together, these insights yield a simple yet robust recipe for stable and sustainable experience internalization, providing concrete guidance for engineering self-evolving and continually learning LLMs.