HiEdit: Lifelong Model Editing with Hierarchical Reinforcement Learning

📄 arXiv: 2604.11214v1 📥 PDF

作者: Yangfan Wang, Tianyang Sun, Chen Tang, Jie Liu, Wei Cai, Jingchi Jiang

分类: cs.CL

发布日期: 2026-04-13

备注: Accept by ACL 2026

🔗 代码/项目: GITHUB


💡 一句话要点

HiEdit:利用分层强化学习实现终身模型编辑,提升知识更新效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 终身模型编辑 强化学习 分层策略 知识更新 大语言模型

📋 核心要点

  1. 现有终身模型编辑方法在所有层上进行参数扰动,忽略了知识存储的层级特异性,导致适应性差和灾难性遗忘。
  2. HiEdit采用分层强化学习,为每个编辑实例自适应地选择最相关的知识层,实现动态和实例感知的更新。
  3. 实验表明,HiEdit在减少扰动层数的同时,显著提升了模型编辑的性能,平均提升8.48%。

📝 摘要(中文)

终身模型编辑(LME)旨在顺序修正已部署的大语言模型(LLM)中过时或不准确的知识,同时最大限度地减少对无关输入的影响。然而,现有方法通常对所有编辑实例,在LLM的静态且密集的层集合上应用参数扰动。我们假设不同的知识存储在模型的不同层中,这种做法是违反直觉的。忽略这种层级的特异性会阻碍整合新知识的适应性,并导致对一般知识和先前编辑过的知识的灾难性遗忘。为了解决这个问题,我们提出了HiEdit,一个分层强化学习框架,可以自适应地识别每个编辑实例最相关的知识层。通过启用动态的、实例感知的层选择,并结合稀疏性的内在奖励,HiEdit实现了精确的、局部化的更新。在各种LLM上的实验表明,HiEdit的性能比具有竞争力的RLEdit平均提高了8.48%,而每次编辑仅扰动一半的层。

🔬 方法详解

问题定义:终身模型编辑(LME)旨在持续更新已部署的大语言模型中的知识,但现有方法如RLEdit等,对所有编辑实例都在固定的所有层上进行参数扰动。这种做法忽略了不同知识可能存储在不同层的事实,导致更新效率低下,容易引起灾难性遗忘,影响模型对通用知识和先前编辑知识的记忆。

核心思路:HiEdit的核心思路是利用分层强化学习,让模型能够根据不同的编辑实例,动态地选择需要更新的层。通过这种方式,可以实现更精确、更局部的知识更新,从而提高更新效率,减少对无关知识的影响,降低灾难性遗忘的风险。

技术框架:HiEdit采用分层强化学习框架。第一层策略(high-level policy)决定哪些层需要被编辑,第二层策略(low-level policy)负责在选定的层上进行参数扰动。整体流程是:给定一个编辑实例,第一层策略输出一个层的选择概率分布,然后根据该分布选择需要编辑的层。接着,第二层策略在选定的层上进行参数扰动,更新模型。最后,根据更新后的模型在验证集上的表现,计算奖励信号,用于训练强化学习策略。

关键创新:HiEdit的关键创新在于引入了分层强化学习,实现了实例感知的层选择。与现有方法在所有层上进行更新不同,HiEdit能够根据不同的编辑实例,自适应地选择最相关的层进行更新,从而提高了更新的效率和精度。此外,HiEdit还引入了稀疏性奖励,鼓励模型选择更少的层进行更新,进一步提高了更新的效率。

关键设计:HiEdit的关键设计包括:1) 使用Actor-Critic算法训练强化学习策略;2) 设计了奖励函数,包括编辑成功率、遗忘率和稀疏性奖励;3) 使用Gumbel-Softmax技巧进行层的选择,使得选择过程可微,从而可以使用梯度下降进行训练。具体来说,第一层策略输出一个层的选择概率分布,然后使用Gumbel-Softmax技巧将该分布转化为一个可微的one-hot向量,表示选择的层。第二层策略使用一个小的神经网络,根据编辑实例和选定的层,计算参数扰动量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HiEdit在各种LLM上都取得了显著的性能提升。例如,在某些数据集上,HiEdit的性能比具有竞争力的RLEdit平均提高了8.48%,而每次编辑仅扰动一半的层。这表明HiEdit能够更有效地利用模型参数,实现更精确的知识更新,同时减少对无关知识的影响。

🎯 应用场景

HiEdit可应用于各种需要持续知识更新的大语言模型,例如聊天机器人、知识库问答系统等。通过自适应地选择更新层,可以提高知识更新的效率和精度,减少对无关知识的影响,从而提升模型的整体性能和用户体验。该方法在医疗、金融等专业领域具有重要的应用价值,可以帮助模型及时学习最新的知识,提供更准确、更可靠的服务。

📄 摘要(原文)

Lifelong model editing (LME) aims to sequentially rectify outdated or inaccurate knowledge in deployed LLMs while minimizing side effects on unrelated inputs. However, existing approaches typically apply parameter perturbations to a static and dense set of LLM layers for all editing instances. This practice is counter-intuitive, as we hypothesize that different pieces of knowledge are stored in distinct layers of the model. Neglecting this layer-wise specificity can impede adaptability in integrating new knowledge and result in catastrophic forgetting for both general and previously edited knowledge. To address this, we propose HiEdit, a hierarchical reinforcement learning framework that adaptively identifies the most knowledge-relevant layers for each editing instance. By enabling dynamic, instance-aware layer selection and incorporating an intrinsic reward for sparsity, HiEdit achieves precise, localized updates. Experiments on various LLMs show that HiEdit boosts the performance of the competitive RLEdit by an average of 8.48% with perturbing only half of the layers per edit. Our code is available at: https://github.com/yangfanww/hiedit.