How new data permeates LLM knowledge and how to dilute it
作者: Chen Sun, Renat Aksitov, Andrey Zhmoginov, Nolan Andrew Miller, Max Vladymyrov, Ulrich Rueckert, Been Kim, Mark Sandler
分类: cs.CL, cs.AI
发布日期: 2025-04-13
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
研究LLM学习新知识的泛化与幻觉现象,并提出数据增强和更新剪枝方法以提升知识特异性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 知识渗透 启动效应 文本增强 更新剪枝 幻觉 知识特异性
📋 核心要点
- 大型语言模型在学习新知识时存在“启动”效应,即新知识会被不恰当地应用到不相关的上下文中,导致幻觉。
- 论文提出通过测量学习前关键词的token概率来预测新知识渗透的程度,并设计了“Outlandish”数据集进行系统研究。
- 论文提出了“垫脚石”文本增强和“忽略-k”更新剪枝两种方法,显著降低了不良启动效应,同时保持了学习能力。
📝 摘要(中文)
大型语言模型通过基于梯度的更新来学习和持续学习,但关于新信息如何影响现有知识,导致有益的泛化和有问题的幻觉,我们仍然知之甚少。本文证明,在学习新信息时,LLM表现出一种“启动”效应:学习一个新事实可能导致模型在不相关的上下文中不恰当地应用该知识。为了系统地研究这种现象,我们引入了“Outlandish”,这是一个精心策划的包含1320个多样文本样本的数据集,旨在探究新知识如何渗透到LLM现有的知识库中。使用该数据集,我们表明,学习新信息后启动的程度可以通过测量学习前关键词的token概率来预测。这种关系在不同的模型架构(PALM-2、Gemma、Llama)、大小和训练阶段都保持稳健。最后,我们开发了两种新技术来调节新知识如何影响现有的模型行为:(1)一种“垫脚石”文本增强策略和(2)一种“忽略-k”更新剪枝方法。这些方法将不良启动效应降低了50-95%,同时保留了模型学习新信息的能力。我们的发现为LLM如何学习提供了经验见解,并为提高语言模型中知识插入的特异性提供了实用的工具。更多资料:https://sunchipsster1.github.io/projects/outlandish/
🔬 方法详解
问题定义:论文旨在解决大型语言模型在学习新知识时出现的“启动”效应问题,即模型会将新学习的知识不恰当地泛化到不相关的上下文中,导致幻觉。现有方法缺乏对这种知识渗透现象的系统研究和有效控制手段。
核心思路:论文的核心思路是,通过分析学习新知识前后模型对关键词的token概率变化,来量化和预测知识渗透的程度。基于此,设计数据增强和更新剪枝策略,以限制新知识的过度泛化,提高知识插入的特异性。
技术框架:论文的技术框架主要包括三个部分:1) 构建“Outlandish”数据集,用于系统评估知识渗透现象;2) 分析学习前后关键词token概率的变化与启动效应之间的关系;3) 提出“垫脚石”文本增强和“忽略-k”更新剪枝两种方法,用于缓解启动效应。整体流程是先通过数据集评估现有模型的启动效应,然后利用提出的方法进行干预,最后再次评估干预效果。
关键创新:论文的关键创新在于:1) 提出了“启动”效应的概念,并对其进行了系统性的研究;2) 构建了“Outlandish”数据集,为研究知识渗透现象提供了标准化的评估平台;3) 提出了“垫脚石”文本增强和“忽略-k”更新剪枝两种方法,为控制知识渗透提供了有效的解决方案。与现有方法相比,该研究更关注知识的特异性,而非简单地提高模型的知识容量。
关键设计:1) “Outlandish”数据集包含1320个多样文本样本,覆盖广泛的主题和上下文,用于评估模型在不同场景下的启动效应;2) “垫脚石”文本增强策略通过引入与新知识相关的中间概念,逐步引导模型学习,避免直接暴露新知识;3) “忽略-k”更新剪枝方法通过选择性地忽略一部分梯度更新,来限制新知识对模型参数的影响,从而降低启动效应。具体来说,该方法会根据梯度的大小,忽略最小的k个梯度分量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,“垫脚石”文本增强和“忽略-k”更新剪枝两种方法能够显著降低不良启动效应,降低幅度达到50-95%,同时保持了模型学习新信息的能力。该结论在PALM-2、Gemma、Llama等不同模型架构、大小和训练阶段上都得到了验证,表明了方法的鲁棒性和泛化能力。
🎯 应用场景
该研究成果可应用于各种需要精确知识的语言模型应用场景,例如问答系统、知识图谱构建、医疗诊断等。通过降低幻觉,提高知识的特异性,可以提升模型的可靠性和安全性,避免产生误导性或有害的输出。未来,该研究可以扩展到多模态学习和持续学习等领域。
📄 摘要(原文)
Large language models learn and continually learn through the accumulation of gradient-based updates, but how individual pieces of new information affect existing knowledge, leading to both beneficial generalization and problematic hallucination, remains poorly understood. We demonstrate that when learning new information, LLMs exhibit a "priming" effect: learning a new fact can cause the model to inappropriately apply that knowledge in unrelated contexts. To systematically study this phenomenon, we introduce "Outlandish," a carefully curated dataset of 1320 diverse text samples designed to probe how new knowledge permeates through an LLM's existing knowledge base. Using this dataset, we show that the degree of priming after learning new information can be predicted by measuring the token probability of key words before learning. This relationship holds robustly across different model architectures (PALM-2, Gemma, Llama), sizes, and training stages. Finally, we develop two novel techniques to modulate how new knowledge affects existing model behavior: (1) a
stepping-stone'' text augmentation strategy and (2) anignore-k'' update pruning method. These approaches reduce undesirable priming effects by 50-95\% while preserving the model's ability to learn new information. Our findings provide both empirical insights into how LLMs learn and practical tools for improving the specificity of knowledge insertion in language models. Further materials: https://sunchipsster1.github.io/projects/outlandish/