CrispEdit: Low-Curvature Projections for Scalable Non-Destructive LLM Editing
作者: Zarif Ikram, Arad Firouzkouhi, Stephen Tu, Mahdi Soltanolkotabi, Paria Rashidinejad
分类: cs.LG, cs.AI
发布日期: 2026-02-17
💡 一句话要点
提出CrispEdit以解决大语言模型编辑中的能力保持问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 编辑算法 能力保持 约束优化 Bregman散度 Kronecker结构 高效计算 模型性能
📋 核心要点
- 现有的LLM编辑方法在改变目标行为时,往往会导致能力退化,影响模型的整体表现。
- CrispEdit通过将编辑视为约束优化问题,明确能力保持为约束条件,从而有效避免能力损失。
- 在标准基准测试中,CrispEdit实现了高达99%的编辑成功率,同时能力退化保持在1%以下,显著优于现有方法。
📝 摘要(中文)
在大语言模型(LLM)编辑中,一个核心挑战是能力保持:成功改变目标行为的方法可能会悄然破坏编辑代理,导致能力退化,产生类似于代理/奖励黑客的退化行为。我们提出CrispEdit,这是一种可扩展且原则明确的二阶编辑算法,将能力保持视为显式约束,统一并概括了几种现有的编辑方法。CrispEdit将编辑过程形式化为约束优化,通过将编辑更新投影到能力损失景观的低曲率子空间来强制执行约束。CrispEdit的核心在于通过Bregman散度表达能力约束,其二次形式精确地得出Gauss-Newton Hessian,即使在基础模型未收敛时也能实现。我们利用Kronecker因子近似曲率(K-FAC)和一种新颖的无矩阵投影器,使这一二阶过程在LLM规模上高效运行。在标准模型编辑基准上,CrispEdit在保持能力退化低于1%的情况下,实现了高编辑成功率,显著优于之前的编辑器。
🔬 方法详解
问题定义:论文要解决的具体问题是如何在编辑大语言模型时保持其能力不受损害。现有方法在成功改变模型行为的同时,往往会导致能力的退化,影响模型的整体性能。
核心思路:CrispEdit的核心思路是将编辑过程视为一个约束优化问题,明确能力保持为一个显式约束条件。通过这种方式,CrispEdit能够有效地避免能力损失,同时实现目标行为的改变。
技术框架:CrispEdit的整体架构包括几个主要模块:首先,定义编辑目标和能力约束;其次,通过Bregman散度来表达能力约束;然后,利用低曲率子空间进行投影;最后,应用K-FAC方法提高计算效率。
关键创新:CrispEdit的最重要技术创新在于将能力保持作为显式约束,并通过低曲率子空间的投影来实现这一目标。这一方法与现有的编辑方法本质上不同,因为它强调了能力保持的重要性,并提供了有效的解决方案。
关键设计:在技术细节上,CrispEdit使用Bregman散度的二次形式来计算Gauss-Newton Hessian,并采用Kronecker结构来避免构建庞大的投影矩阵。这些设计使得CrispEdit在大规模LLM上高效运行。
📊 实验亮点
在标准模型编辑基准测试中,CrispEdit实现了高达99%的编辑成功率,同时保持能力退化低于1%。这一结果显著优于之前的编辑方法,展示了CrispEdit在能力保持和编辑效果之间的良好平衡。
🎯 应用场景
CrispEdit的研究成果具有广泛的潜在应用,尤其是在需要对大语言模型进行精细调整的场景,如对话系统、文本生成和内容审核等领域。通过有效保持模型能力,CrispEdit能够帮助开发者在不损害模型整体性能的情况下,实现特定功能的优化。这一方法的成功应用将推动智能系统的可靠性和灵活性,具有重要的实际价值和未来影响。
📄 摘要(原文)
A central challenge in large language model (LLM) editing is capability preservation: methods that successfully change targeted behavior can quietly game the editing proxy and corrupt general capabilities, producing degenerate behaviors reminiscent of proxy/reward hacking. We present CrispEdit, a scalable and principled second-order editing algorithm that treats capability preservation as an explicit constraint, unifying and generalizing several existing editing approaches. CrispEdit formulates editing as constrained optimization and enforces the constraint by projecting edit updates onto the low-curvature subspace of the capability-loss landscape. At the crux of CrispEdit is expressing capability constraint via Bregman divergence, whose quadratic form yields the Gauss-Newton Hessian exactly and even when the base model is not trained to convergence. We make this second-order procedure efficient at the LLM scale using Kronecker-factored approximate curvature (K-FAC) and a novel matrix-free projector that exploits Kronecker structure to avoid constructing massive projection matrices. Across standard model-editing benchmarks, CrispEdit achieves high edit success while keeping capability degradation below 1% on average across datasets, significantly improving over prior editors.