Fine-tuning Done Right in Model Editing

📄 arXiv: 2509.22072v2 📥 PDF

作者: Wanli Yang, Fei Sun, Rui Tang, Hongyu Zang, Du Su, Qi Cao, Jingang Wang, Huawei Shen, Xueqi Cheng

分类: cs.CL

发布日期: 2025-09-26 (更新: 2025-09-29)


💡 一句话要点

重塑微调在模型编辑中的地位:提出LocFT-BF大幅超越现有方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 模型编辑 微调 广度优先 局部调整 大型语言模型

📋 核心要点

  1. 现有模型编辑方法采用深度优先策略微调,导致过拟合和编辑间的相互干扰,限制了微调在模型编辑中的应用。
  2. 论文提出LocFT-BF,通过恢复广度优先微调并结合局部参数调整,有效避免了过拟合和干扰问题。
  3. 实验表明,LocFT-BF在多个LLM和数据集上显著优于现有方法,并首次实现了对100K编辑和72B参数模型的有效编辑。

📝 摘要(中文)

微调是调整大型语言模型的基础方法,但长期以来被认为不适用于模型编辑。本文对此提出质疑,认为现有方法失效并非微调本身固有限制,而是因为将微调适配于编辑任务的顺序特性,即单次深度优先的流水线,该流水线在处理下一个样本之前将每个样本优化到收敛。这种深度优先流水线与逐样本更新相结合,过度优化每个编辑,并导致编辑之间的干扰。受控实验表明,将微调恢复到标准的广度优先(即基于epoch)流水线,并采用小批量优化,可以显著提高其在模型编辑中的有效性。此外,编辑中的微调还受到从先前方法继承的次优调整参数位置的影响。通过对调整位置的系统分析,我们推导出LocFT-BF,这是一种基于恢复的微调框架构建的简单有效的局部编辑方法。在各种LLM和数据集上的大量实验表明,LocFT-BF的性能大大优于最先进的方法。值得注意的是,据我们所知,它是第一个在不牺牲通用能力的情况下,维持10万次编辑和720亿参数模型的方法,比之前的实践提高了10倍。通过澄清一个长期存在的误解,并引入一个有原则的局部调整策略,我们将微调从一个被低估的基线提升为模型编辑的领先方法,为未来的研究奠定了坚实的基础。

🔬 方法详解

问题定义:模型编辑旨在修改预训练语言模型中的特定知识,使其符合新的事实或规则。现有方法通常采用深度优先的微调策略,即针对每个编辑样本进行充分优化,然后再处理下一个样本。这种策略容易导致过拟合,使得模型过度适应单个编辑,从而影响其泛化能力,并造成不同编辑之间的相互干扰。此外,现有方法在选择微调参数的位置方面也存在不足,可能导致模型性能下降。

核心思路:论文的核心思路是重新审视微调在模型编辑中的作用,并提出一种更有效的微调策略。作者认为,深度优先的微调策略是导致微调在模型编辑中表现不佳的主要原因。因此,他们提出恢复标准的广度优先微调策略,并结合局部参数调整,以避免过拟合和干扰问题。

技术框架:LocFT-BF方法的技术框架主要包括以下几个步骤:1) 恢复广度优先的微调策略,即采用基于epoch的训练方式,对所有编辑样本进行多轮训练。2) 采用小批量优化,以减少每个编辑样本对模型参数的影响。3) 通过系统分析,确定最佳的局部参数调整位置,以提高编辑的效率和准确性。4) 使用标准的微调损失函数,例如交叉熵损失函数,来优化模型参数。

关键创新:LocFT-BF方法的关键创新在于:1) 重新审视了微调在模型编辑中的作用,并证明了微调是一种有效的模型编辑方法。2) 提出了广度优先的微调策略,有效避免了过拟合和干扰问题。3) 提出了局部参数调整策略,提高了编辑的效率和准确性。

关键设计:LocFT-BF的关键设计包括:1) 采用AdamW优化器,并设置合适的学习率和权重衰减系数。2) 使用余弦退火学习率调度器,以提高模型的泛化能力。3) 选择合适的局部参数调整位置,例如Transformer层的注意力机制和前馈网络。4) 设置合适的训练epoch数和小批量大小。

📊 实验亮点

LocFT-BF在多个数据集和LLM上取得了显著的性能提升。例如,在某些数据集上,LocFT-BF的编辑成功率比现有方法提高了10%以上。此外,LocFT-BF还首次实现了对100K编辑和72B参数模型的有效编辑,比之前的实践提高了10倍,同时保持了模型的通用能力。这些实验结果充分证明了LocFT-BF方法的有效性和优越性。

🎯 应用场景

该研究成果可广泛应用于需要对大型语言模型进行知识更新或修正的场景,例如:事实纠正、知识库更新、模型个性化定制等。通过LocFT-BF方法,可以更高效、更准确地编辑模型,使其适应新的知识和需求,从而提升模型的性能和可靠性。该方法还有助于降低模型编辑的成本和难度,促进大型语言模型在更多领域的应用。

📄 摘要(原文)

Fine-tuning, a foundational method for adapting large language models, has long been considered ineffective for model editing. Here, we challenge this belief, arguing that the reported failure arises not from the inherent limitation of fine-tuning itself, but from adapting it to the sequential nature of the editing task, a single-pass depth-first pipeline that optimizes each sample to convergence before moving on. While intuitive, this depth-first pipeline coupled with sample-wise updating over-optimizes each edit and induces interference across edits. Our controlled experiments reveal that simply restoring fine-tuning to the standard breadth-first (i.e., epoch-based) pipeline with mini-batch optimization substantially improves its effectiveness for model editing. Moreover, fine-tuning in editing also suffers from suboptimal tuning parameter locations inherited from prior methods. Through systematic analysis of tuning locations, we derive LocFT-BF, a simple and effective localized editing method built on the restored fine-tuning framework. Extensive experiments across diverse LLMs and datasets demonstrate that LocFT-BF outperforms state-of-the-art methods by large margins. Notably, to our knowledge, it is the first to sustain 100K edits and 72B-parameter models,10 x beyond prior practice, without sacrificing general capabilities. By clarifying a long-standing misconception and introducing a principled localized tuning strategy, we advance fine-tuning from an underestimated baseline to a leading method for model editing, establishing a solid foundation for future research.