Knowledge Editing in Language Models via Adapted Direct Preference Optimization

📄 arXiv: 2406.09920v2 📥 PDF

作者: Amit Rozner, Barak Battash, Lior Wolf, Ofir Lindenbaum

分类: cs.CL, cs.AI

发布日期: 2024-06-14 (更新: 2024-09-24)

备注: 9 pages, 4 figures


💡 一句话要点

提出基于改进直接偏好优化的知识编辑方法KDPO,提升语言模型知识更新效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识编辑 大型语言模型 直接偏好优化 在线学习 模型对齐

📋 核心要点

  1. 大型语言模型存在知识过时问题,需要高效的知识编辑方法进行更新,避免昂贵的重新训练。
  2. 论文提出知识直接偏好优化(KDPO),将知识编辑视为LLM对齐问题,利用正负样本进行优化。
  3. 实验结果表明,KDPO在知识编辑任务上表现出与现有方法相当甚至更优的性能,实现了更精细的知识更新。

📝 摘要(中文)

大型语言模型(LLMs)会随着时间推移而过时,缺乏最新的世界知识,导致事实性知识错误和空白。知识编辑(KE)旨在通过不需要昂贵重新训练的权重更新来克服这一挑战。我们提出将KE视为LLM对齐问题。为此,我们引入了知识直接偏好优化(KDPO),它是直接偏好优化(DPO)的一种变体,对于知识修改更有效。我们的方法基于一种在线方法,不断更新模型中存储的知识。我们使用当前知识作为负样本,并将我们想要引入的新知识作为正样本,在一个称为DPO的过程中进行优化。我们还使用教师强制进行负样本生成,并使用正样本进行优化,这有助于保持局部变化。我们在各种数据集和模型上测试了我们的KE方法,将其与几种最先进的方法进行了比较,进行了100和500次连续编辑。此外,我们进行了一项消融研究,将我们的方法与标准DPO方法进行了比较。我们的实验结果表明,我们修改后的DPO方法允许更精细的KE,与以前的方法相比,实现了相似或更好的性能。

🔬 方法详解

问题定义:现有大型语言模型面临知识更新的挑战,传统方法如完全重新训练成本高昂。知识编辑旨在通过修改模型权重来快速更新知识,但现有方法在保持模型原有知识和精确修改特定知识点之间存在trade-off。

核心思路:将知识编辑问题转化为语言模型的对齐问题,即让模型偏好新的、正确的知识,同时避免对原有知识的过度修改。通过直接偏好优化(DPO)框架,将知识编辑目标转化为正负样本的偏好学习。

技术框架:KDPO方法采用在线更新方式,持续地对模型进行知识编辑。整体流程如下:1) 收集需要编辑的知识,构建正样本(新知识)和负样本(旧知识)。2) 使用教师强制(Teacher Forcing)生成负样本,确保负样本的质量。3) 使用DPO损失函数,优化模型参数,使得模型偏好正样本(新知识),同时避免过度修改。

关键创新:KDPO的核心创新在于将知识编辑问题与直接偏好优化(DPO)相结合,并针对知识编辑任务对DPO进行了改进。通过使用当前知识作为负样本,并结合教师强制生成负样本,KDPO能够更有效地进行知识编辑,同时保持模型原有知识。

关键设计:KDPO的关键设计包括:1) 使用DPO损失函数,该损失函数基于Bradley-Terry模型,能够直接优化模型的偏好。2) 使用教师强制生成负样本,提高负样本的质量,避免模型学习到错误的知识。3) 采用在线更新方式,持续地对模型进行知识编辑,使得模型能够及时地学习到新的知识。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,KDPO方法在知识编辑任务上取得了与现有最先进方法相当甚至更优的性能。在100和500次连续编辑的实验中,KDPO展现了良好的知识更新能力和稳定性。消融实验表明,KDPO对标准DPO的改进能够更有效地进行知识编辑。

🎯 应用场景

该研究成果可应用于各种需要持续更新知识的语言模型应用场景,例如智能客服、搜索引擎、知识图谱问答等。通过KDPO方法,可以快速、高效地更新语言模型的知识库,提高模型的准确性和实用性。未来,该方法可以扩展到其他类型的知识编辑任务,例如常识推理、逻辑推理等。

📄 摘要(原文)

Large Language Models (LLMs) can become outdated over time as they may lack updated world knowledge, leading to factual knowledge errors and gaps. Knowledge Editing (KE) aims to overcome this challenge using weight updates that do not require expensive retraining. We propose treating KE as an LLM alignment problem. Toward this goal, we introduce Knowledge Direct Preference Optimization (KDPO), a variation of the Direct Preference Optimization (DPO) that is more effective for knowledge modifications. Our method is based on an online approach that continually updates the knowledge stored in the model. We use the current knowledge as a negative sample and the new knowledge we want to introduce as a positive sample in a process called DPO. We also use teacher-forcing for negative sample generation and optimize using the positive sample, which helps maintain localized changes. We tested our KE method on various datasets and models, comparing it to several cutting-edge methods, with 100 and 500 sequential edits. Additionally, we conducted an ablation study comparing our method to the standard DPO approach. Our experimental results show that our modified DPO method allows for more refined KE, achieving similar or better performance compared to previous methods.