Distributed Multi-Layer Editing for Rule-Level Knowledge in Large Language Models

📄 arXiv: 2604.08284v1 📥 PDF

作者: Yating Wang, Wenting Zhao, Yaqi Zhao, Yongshun Gong, Yilong Yin, Haoliang Sun

分类: cs.CL, cs.AI

发布日期: 2026-04-09

备注: 17 pages,3 figures. Under review

🔗 代码/项目: GITHUB


💡 一句话要点

提出分布式多层编辑(DMLE)方法,解决大语言模型中规则级知识编辑难题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 知识编辑 规则级知识 因果追踪 分布式学习

📋 核心要点

  1. 现有模型编辑方法主要针对事实级知识,无法有效处理规则级知识在多种形式中保持一致性的需求。
  2. DMLE通过因果追踪发现规则知识在Transformer层中具有形式特定的组织,并据此设计分布式多层编辑策略。
  3. 实验表明,DMLE在实例可移植性和规则理解方面显著优于现有方法,平均提升分别达到13.91%和50.19%。

📝 摘要(中文)

大型语言模型不仅存储孤立的事实,还存储支持跨符号表达式、自然语言解释和具体实例进行推理的规则。然而,大多数模型编辑方法都是为事实级知识构建的,假设可以通过局部干预来实现目标编辑。这种假设不适用于规则级知识,因为单个规则必须在多个相互依赖的形式中保持一致。我们通过对规则级知识编辑的机制研究来调查这个问题。为了支持这项研究,我们将 RuleEdit 基准从 80 个扩展到 200 个手动验证的规则,涵盖数学和物理。细粒度的因果追踪揭示了 Transformer 层中规则知识的一种形式特定的组织:公式和描述集中在较早的层中,而实例更多地与中间层相关联。这些结果表明,规则知识不是均匀局部化的,因此无法通过单层或连续块干预来可靠地编辑。基于这一洞察,我们提出了分布式多层编辑 (DMLE),它将共享的早期层更新应用于公式和描述,并将单独的中间层更新应用于实例。在标准编辑指标上保持竞争力的同时,DMLE 实现了显着更强的规则级编辑性能。平均而言,与 GPT-J-6B、Qwen2.5-7B、Qwen2-7B 和 LLaMA-3-8B 中最强的基线相比,它分别将实例可移植性和规则理解提高了 13.91 和 50.19 个百分点。代码可在 https://github.com/Pepper66/DMLE 获得。

🔬 方法详解

问题定义:现有的大语言模型编辑方法主要集中于事实层面的知识修改,而忽略了规则层面的知识编辑。规则层面的知识通常以多种形式存在(例如公式、描述、实例),并且这些形式之间存在依赖关系。现有的局部干预方法难以保证规则在不同形式之间的一致性,导致编辑效果不佳。

核心思路:论文的核心思路是,规则知识在Transformer的不同层中以不同的形式存在,因此需要采用分布式的多层编辑策略。具体来说,公式和描述等抽象形式的知识集中在较早的层,而实例等具体形式的知识则更多地与中间层相关联。因此,应该针对不同形式的知识,在不同的层进行编辑。

技术框架:DMLE (Distributed Multi-Layer Editing) 的整体框架包含两个主要阶段:1) 知识定位:通过因果追踪技术,确定不同形式的规则知识在Transformer层中的分布情况。2) 分布式编辑:根据知识定位的结果,将编辑操作分布到不同的层。对于公式和描述等抽象形式,在较早的层应用共享的更新;对于实例等具体形式,在中间层应用单独的更新。

关键创新:DMLE 的关键创新在于其分布式多层编辑策略。与传统的单层或连续块干预方法不同,DMLE 能够根据规则知识在不同层中的分布情况,有针对性地进行编辑。这种策略能够更好地保证规则在不同形式之间的一致性,从而提高编辑效果。

关键设计:DMLE 的关键设计包括:1) 使用因果追踪技术进行知识定位,确定不同形式的规则知识在Transformer层中的分布情况。2) 设计共享的早期层更新,用于编辑公式和描述等抽象形式的知识。3) 设计单独的中间层更新,用于编辑实例等具体形式的知识。具体的参数设置和损失函数等技术细节在论文中未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DMLE 在 RuleEdit 基准测试中表现出色,与 GPT-J-6B、Qwen2.5-7B、Qwen2-7B 和 LLaMA-3-8B 中最强的基线相比,实例可移植性平均提升 13.91 个百分点,规则理解平均提升 50.19 个百分点。这些结果表明,DMLE 能够更有效地编辑规则级知识,并显著提高模型的性能。

🎯 应用场景

该研究成果可应用于提升大语言模型的可控性和可靠性,例如在特定领域定制模型行为、修复模型中的错误知识、以及增强模型的推理能力。通过精确编辑规则级知识,可以使模型更好地适应特定任务和场景,提高其在实际应用中的价值。

📄 摘要(原文)

Large language models store not only isolated facts but also rules that support reasoning across symbolic expressions, natural language explanations, and concrete instances. Yet most model editing methods are built for fact-level knowledge, assuming that a target edit can be achieved through a localized intervention. This assumption does not hold for rule-level knowledge, where a single rule must remain consistent across multiple interdependent forms. We investigate this problem through a mechanistic study of rule-level knowledge editing. To support this study, we extend the RuleEdit benchmark from 80 to 200 manually verified rules spanning mathematics and physics. Fine-grained causal tracing reveals a form-specific organization of rule knowledge in transformer layers: formulas and descriptions are concentrated in earlier layers, while instances are more associated with middle layers. These results suggest that rule knowledge is not uniformly localized, and therefore cannot be reliably edited by a single-layer or contiguous-block intervention. Based on this insight, we propose Distributed Multi-Layer Editing (DMLE), which applies a shared early-layer update to formulas and descriptions and a separate middle-layer update to instances. While remaining competitive on standard editing metrics, DMLE achieves substantially stronger rule-level editing performance. On average, it improves instance portability and rule understanding by 13.91 and 50.19 percentage points, respectively, over the strongest baseline across GPT-J-6B, Qwen2.5-7B, Qwen2-7B, and LLaMA-3-8B. The code is available at https://github.com/Pepper66/DMLE.