Self-Consolidating Language Models: Continual Knowledge Incorporation from Context
作者: Zekun Wang, Anant Gupta, Zihan Dong, Christopher J. MacLellan
分类: cs.CL, cs.LG
发布日期: 2026-05-08
备注: 9 pages
💡 一句话要点
提出自巩固语言模型(SCoL)框架,通过元强化学习实现长上下文知识的持续性参数化更新
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 持续学习 长上下文 元强化学习 参数高效微调 知识巩固 Transformer优化
📋 核心要点
- 现有长上下文处理方法仅依赖窗口扩展,难以实现信息的长期记忆与参数化留存,且易受灾难性遗忘影响。
- SCoL框架通过元强化学习训练模型,使其能够自主生成文本指令,动态选择Transformer层进行稀疏参数更新。
- 实验表明,SCoL在知识获取与留存方面显著优于传统基线,并展现出良好的跨任务扩展性与对高敏感区域的自适应路由能力。
📝 摘要(中文)
大型语言模型(LLMs)日益频繁地处理段落、对话及长上下文工作流等信息流。尽管长上下文窗口提供了更多证据,但无法确保有用信息的有效保存与复用。本文研究了持续上下文巩固问题,即在限制对既往信息干扰的前提下,将当前上下文写入模型权重。我们提出了自巩固语言模型(SCoL),这是一种后训练框架,使LLM能够根据当前上下文生成文本更新指令,指定其Transformer层中哪些部分需要更新。由于已提交的更新会改变后续生成选择的模型,我们采用元强化学习在演进的模型状态上训练SCoL。通过在SQuAD知识整合任务上的监督QA奖励及LongBench v2长上下文巩固任务上的内在似然奖励进行实例化,SCoL在获取与留存能力上均优于提示工程、摘要生成、批量测试时训练及顺序微调等基线。分析表明,SCoL倾向于在Fisher信息量高的层进行稀疏更新,从而在限制干扰的同时将可塑性导向对损失敏感的区域。
🔬 方法详解
问题定义:论文旨在解决LLM在处理长上下文流时,如何将关键信息持续地“巩固”到模型权重中,同时避免对已学知识的灾难性遗忘或干扰。现有方法(如提示工程或全参数微调)要么无法实现长期记忆,要么在更新时会破坏模型原有的知识结构。
核心思路:SCoL的核心思想是将模型更新过程建模为一种“自主决策”任务。模型不仅是信息的处理者,也是自身参数更新的调度者。通过元强化学习,模型学习如何根据上下文内容,精准地选择需要更新的Transformer层,从而实现稀疏且高效的知识注入。
技术框架:该框架包含一个策略生成器,负责根据当前输入生成更新指令;一个参数更新模块,根据指令对特定层进行权重调整;以及一个元强化学习训练循环,通过评估更新后的模型在后续任务上的表现来优化策略生成器,使其适应不断演进的模型状态。
关键创新:最重要的创新在于将“更新位置选择”作为一种可学习的策略,而非预定义的规则。这种机制使得模型能够自动识别并利用Fisher信息量高的层,将可塑性集中在对损失最敏感的区域,从而在保持模型稳定性的同时实现高效学习。
关键设计:SCoL采用了基于文本的指令生成机制,通过元强化学习(Meta-RL)处理更新后的模型状态演变。在奖励函数设计上,结合了针对知识整合的监督QA奖励和针对长上下文巩固的内在似然奖励,确保了模型在不同任务场景下的鲁棒性与适应性。
🖼️ 关键图片
📊 实验亮点
SCoL在SQuAD知识整合与LongBench v2长上下文巩固任务中表现优异,全面超越了提示工程、摘要生成及顺序微调等基线方法。分析显示,模型学会了将更新路由至高Fisher信息层,实现了稀疏且高效的参数优化。此外,该框架展现了从短序列到长序列的良好迁移能力,证明了其在处理大规模流式数据时的可扩展性。
🎯 应用场景
该技术适用于需要长期记忆的复杂应用场景,如个人AI助理的持续学习、长篇文档的深度分析与知识库构建、以及需要实时更新领域知识的专业对话系统。其核心价值在于提升模型在动态信息流中的知识留存能力,减少对外部检索系统的依赖,并降低持续微调带来的计算开销。
📄 摘要(原文)
Large language models (LLMs) increasingly receive information as streams of passages, conversations, and long-context workflows. While longer context windows expose more evidence, they do not ensure that useful information is preserved and reused. We study continual context consolidation: writing current context into model weights while limiting interference with previously consolidated information. We propose \textbf{S}elf-\textbf{Co}nsolidating \textbf{L}anguage Models (SCoL), a post-training framework in which, given current context, an LLM learns to generate textual update instructions specifying which of its own Transformer layers should be updated. Because committed updates change the model that later generates future selections, we train SCoL with meta-reinforcement learning over an evolving model state. We instantiate SCoL with supervised QA rewards on SQuAD knowledge incorporation and intrinsic likelihood-based rewards for LongBench v2 long-context consolidation. Across both settings, SCoL improves acquisition and retention over prompting, summarization, batch test-time training, and sequential finetuning baselines. Analysis of learned selection patterns shows that SCoL encourages the LLM to generate sparse update locations that align with layers of high Fisher information, suggesting that the model learns to route plasticity toward loss-sensitive regions while limiting interference. Moreover, SCoL transfers from shorter meta-training streams to longer LongBench v2 streams at evaluation, suggesting that our framework supports scalable streaming consolidation.