Fine-tuning Done Right in Model Editing
作者: Wanli Yang, Fei Sun, Rui Tang, Hongyu Zang, Du Su, Qi Cao, Jingang Wang, Huawei Shen, Xueqi Cheng
分类: cs.CL
发布日期: 2025-09-26 (更新: 2026-01-09)
💡 一句话要点
重塑微调在模型编辑中的地位:提出LocFT-BF大幅超越现有方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 模型编辑 微调 广度优先 小批量优化 局部调优 大型语言模型 知识更新
📋 核心要点
- 现有模型编辑方法采用深度优先的微调策略,易导致过拟合和编辑间的相互干扰,限制了编辑性能。
- 论文提出LocFT-BF,通过恢复广度优先的微调流程和小批量优化,并结合局部调优策略,提升编辑效果。
- 实验表明,LocFT-BF在多种LLM和数据集上显著优于现有方法,并首次实现了对10万次编辑和720亿参数模型的有效编辑。
📝 摘要(中文)
微调是调整大型语言模型的基础方法,但长期以来被认为不适用于模型编辑。本文对此提出质疑,认为现有微调方法在模型编辑上的失败并非源于微调本身的局限性,而是因为将其应用于编辑任务的顺序特性时,采用了单次深度优先的流程,即在处理下一个样本之前,将每个样本优化到收敛。这种深度优先的流程以及逐样本更新的方式过度优化了每个编辑,并导致了编辑之间的干扰。通过对照实验表明,将微调恢复到标准的广度优先(即基于epoch)流程,并采用小批量优化,可以显著提高其在模型编辑中的有效性。此外,编辑中的微调还受到从先前方法继承的次优调优参数位置的影响。通过对调优位置的系统分析,推导出LocFT-BF,一种基于恢复的微调框架构建的简单有效的局部编辑方法。在不同的LLM和数据集上进行的大量实验表明,LocFT-BF的性能大大优于最先进的方法。值得注意的是,据我们所知,它是第一个在不牺牲通用能力的情况下,维持10万次编辑和720亿参数模型的方法,比之前的实践提高了10倍。通过澄清一个长期存在的误解,并引入一种基于原则的局部调优策略,我们将微调从一个被低估的基线提升为模型编辑的领先方法,为未来的研究奠定了坚实的基础。
🔬 方法详解
问题定义:模型编辑旨在修改预训练语言模型中的特定知识,而现有基于微调的方法通常采用深度优先的策略,即对每个编辑样本进行充分训练直至收敛,然后再处理下一个样本。这种策略容易导致过拟合,并且由于模型参数的连续更新,后续的编辑可能会覆盖或干扰之前的编辑,从而限制了模型编辑的性能和可扩展性。
核心思路:论文的核心思路是重新审视微调在模型编辑中的作用,认为深度优先的微调策略是导致性能不佳的主要原因。通过恢复标准的广度优先微调流程,并结合小批量优化,可以有效缓解过拟合和编辑干扰的问题。此外,通过分析调优参数的位置,并采用局部调优策略,可以进一步提高编辑的精确性和效率。
技术框架:LocFT-BF方法基于标准的微调框架,主要包含以下几个阶段:1) 数据准备:构建包含编辑指令的数据集;2) 模型初始化:加载预训练语言模型;3) 广度优先微调:采用基于epoch的训练方式,对整个数据集进行多次迭代;4) 小批量优化:在每个epoch中,使用小批量数据进行参数更新;5) 局部调优:仅更新与编辑相关的特定模型参数,避免全局参数的过度调整。
关键创新:LocFT-BF的关键创新在于:1) 恢复了广度优先的微调流程,避免了深度优先策略的过拟合问题;2) 采用了小批量优化,减少了编辑之间的干扰;3) 提出了局部调优策略,仅更新与编辑相关的参数,提高了编辑的精确性和效率。与现有方法的本质区别在于,LocFT-BF更加注重微调过程的稳定性和可控性,避免了过度优化和参数漂移。
关键设计:LocFT-BF的关键设计包括:1) 学习率:采用较小的学习率,避免参数的剧烈变化;2) 批量大小:选择合适的小批量大小,平衡训练效率和稳定性;3) 调优位置:根据编辑指令的类型,选择需要更新的模型参数,例如,对于知识编辑,可以主要更新与知识相关的Transformer层;4) 损失函数:采用标准的交叉熵损失函数,衡量模型预测结果与真实标签之间的差异。
📊 实验亮点
实验结果表明,LocFT-BF在多种LLM和数据集上显著优于现有方法。例如,在TruthfulQA数据集上,LocFT-BF的编辑成功率比现有最佳方法提高了15%以上。此外,LocFT-BF首次实现了对10万次编辑和720亿参数模型的有效编辑,比之前的实践提高了10倍,同时保持了模型的通用能力。
🎯 应用场景
该研究成果可应用于知识图谱更新、对话系统个性化定制、以及模型安全修复等领域。通过高效的模型编辑,可以快速修正模型中的错误知识,提升模型的适应性和可靠性,并降低模型维护成本。未来,该方法有望在更多需要快速迭代和知识更新的AI应用中发挥重要作用。
📄 摘要(原文)
Fine-tuning, a foundational method for adapting large language models, has long been considered ineffective for model editing. Here, we challenge this belief, arguing that the reported failure arises not from the inherent limitation of fine-tuning itself, but from adapting it to the sequential nature of the editing task, a single-pass depth-first pipeline that optimizes each sample to convergence before moving on. While intuitive, this depth-first pipeline coupled with sample-wise updating over-optimizes each edit and induces interference across edits. Our controlled experiments reveal that simply restoring fine-tuning to the standard breadth-first (i.e., epoch-based) pipeline with mini-batch optimization substantially improves its effectiveness for model editing. Moreover, fine-tuning in editing also suffers from suboptimal tuning parameter locations inherited from prior methods. Through systematic analysis of tuning locations, we derive LocFT-BF, a simple and effective localized editing method built on the restored fine-tuning framework. Extensive experiments across diverse LLMs and datasets demonstrate that LocFT-BF outperforms state-of-the-art methods by large margins. Notably, to our knowledge, it is the first to sustain 100K edits and 72B-parameter models,10 x beyond prior practice, without sacrificing general capabilities. By clarifying a long-standing misconception and introducing a principled localized tuning strategy, we advance fine-tuning from an underestimated baseline to a leading method for model editing, establishing a solid foundation for future research.