In Praise of Stubbornness: An Empirical Case for Cognitive-Dissonance Aware Continual Update of Knowledge in LLMs

📄 arXiv: 2502.04390v2 📥 PDF

作者: Simone Clemente, Zied Ben Houidi, Alexis Huet, Dario Rossi, Giulio Franzese, Pietro Michiardi

分类: cs.CL, cs.AI, cs.LG, q-bio.NC

发布日期: 2025-02-05 (更新: 2025-06-10)


💡 一句话要点

揭示LLM持续学习中认知失调问题,提出矛盾信息检测机制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 持续学习 认知失调 知识遗忘 矛盾信息检测

📋 核心要点

  1. 大型语言模型在持续学习中,容易受到矛盾信息的干扰,导致灾难性的知识遗忘,严重影响模型的可靠性。
  2. 论文提出一种基于认知失调的视角,研究矛盾信息对LLM知识更新的影响,并探索选择性更新策略以缓解知识遗忘。
  3. 实验表明,即使采用选择性更新策略,矛盾信息仍然会导致灾难性干扰,但可以通过模型特征有效检测矛盾信息。

📝 摘要(中文)

本文通过系统性实验研究,揭示了大型语言模型(LLM)的一个根本且令人担忧的特性:LLM可以安全地学习不与其已有知识相矛盾的事实,但尝试用矛盾信息更新事实会导致不相关知识的灾难性损坏。与自然地抵制矛盾信息的人类不同,这些模型不加区分地接受矛盾,导致毁灭性的干扰,即使只学习10-100个矛盾的事实,也会破坏高达80%的不相关知识。为了理解这种干扰是否可以通过选择性可塑性来缓解,我们尝试了有针对性的网络更新,区分了先前使用过的(顽固的)和很少使用的(可塑的)神经元。我们发现了另一种不对称性:虽然保留频繁使用的神经元可以显著提高非矛盾更新的现有知识的保留率(98% vs 93%的标准更新),但矛盾更新会触发灾难性干扰,而与目标策略无关。这种影响在测试的模型规模(GPT-2到GPT-J-6B)中持续存在,表明神经网络在处理矛盾方面存在根本性的局限性。最后,我们证明了可以使用简单的模型特征可靠地检测矛盾信息(95%+的准确率),从而提供了一种潜在的保护机制。这些发现激发了新的架构,这些架构可以像人类一样,自然地抵制矛盾,而不是允许破坏性的覆盖。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在持续学习过程中,由于接受矛盾信息而导致的灾难性知识遗忘问题。现有方法无法有效区分和处理矛盾信息,导致模型在更新知识时,会破坏已有的、不相关的知识,严重影响模型的稳定性和可靠性。

核心思路:论文的核心思路是研究LLM在面对矛盾信息时的行为,并探索缓解知识遗忘的策略。作者借鉴了认知失调理论,认为LLM在处理矛盾信息时缺乏人类的“顽固性”,即无法有效抵制与已有知识相悖的信息。因此,论文尝试通过选择性更新网络中的神经元,区分“顽固”和“可塑”的神经元,以期提高模型对已有知识的保留能力。

技术框架:论文的实验框架主要包括以下几个步骤:1)构建包含矛盾信息的知识更新数据集;2)使用不同的更新策略(标准更新、选择性更新)对LLM进行持续学习;3)评估模型在更新后的知识保留情况,以及对不相关知识的影响;4)探索基于模型特征的矛盾信息检测方法。

关键创新:论文最重要的技术创新点在于揭示了LLM在处理矛盾信息时的脆弱性,并提出了基于模型特征的矛盾信息检测方法。与现有方法不同,论文关注的是矛盾信息对LLM知识更新的负面影响,并尝试从认知失调的角度理解这一现象。此外,论文提出的矛盾信息检测方法,为构建更鲁棒的持续学习系统提供了新的思路。

关键设计:论文的关键设计包括:1)选择性更新策略:区分频繁使用(顽固)和很少使用(可塑)的神经元,并对不同类型的神经元采用不同的更新策略;2)矛盾信息检测方法:基于模型在处理矛盾信息时的特征(例如,输出概率的变化),训练分类器来检测矛盾信息;3)实验评估指标:使用知识保留率和不相关知识破坏率来评估不同更新策略的效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使采用选择性更新策略,矛盾信息仍然会导致灾难性干扰。具体而言,即使只学习10-100个矛盾的事实,也会破坏高达80%的不相关知识。然而,论文也证明了可以使用简单的模型特征以超过95%的准确率检测矛盾信息,为构建更可靠的持续学习系统提供了可能。实验涵盖了GPT-2到GPT-J-6B等不同规模的模型。

🎯 应用场景

该研究成果可应用于提升大型语言模型在知识图谱构建、智能问答系统、对话系统等领域的可靠性和稳定性。通过有效检测和处理矛盾信息,可以避免模型在持续学习过程中出现知识遗忘和错误推理,从而提高用户体验和应用效果。未来的研究可以进一步探索更有效的矛盾信息处理机制,构建更鲁棒的持续学习系统。

📄 摘要(原文)

Through systematic empirical investigation, we uncover a fundamental and concerning property of Large Language Models: while they can safely learn facts that don't contradict their knowledge, attempting to update facts with contradictory information triggers catastrophic corruption of unrelated knowledge. Unlike humans, who naturally resist contradictory information, these models indiscriminately accept contradictions, leading to devastating interference, destroying up to 80% of unrelated knowledge even when learning as few as 10-100 contradicting facts. To understand whether this interference could be mitigated through selective plasticity, we experiment with targeted network updates, distinguishing between previously used (stubborn) and rarely used (plastic) neurons. We uncover another asymmetry: while sparing frequently-used neurons significantly improves retention of existing knowledge for non-contradictory updates (98% vs 93% with standard updates), contradictory updates trigger catastrophic interference regardless of targeting strategy. This effect which persists across tested model scales (GPT-2 to GPT-J-6B), suggests a fundamental limitation in how neural networks handle contradictions. Finally, we demonstrate that contradictory information can be reliably detected (95%+ accuracy) using simple model features, offering a potential protective mechanism. These findings motivate new architectures that can, like humans, naturally resist contradictions rather than allowing destructive overwrites.