Negation-Induced Forgetting in LLMs
作者: Francesca Capuano, Ellen Boschert, Barbara Kaup
分类: cs.CL
发布日期: 2025-02-26
备注: ISCA/ITG Workshop on Diversity in Large Speech and Language Models
💡 一句话要点
研究发现部分大型语言模型存在否定诱导遗忘现象
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 认知偏差 否定诱导遗忘 信息回忆 心理学 ChatGPT LLaMA
📋 核心要点
- 现有研究表明人类存在否定诱导遗忘现象,即否定错误信息会降低对相关事件的回忆。
- 本研究旨在探索大型语言模型是否也存在类似的认知偏差,通过实验验证模型对否定信息的处理方式。
- 实验结果表明,部分LLM(如ChatGPT-3.5)表现出否定诱导遗忘,而其他模型(如LLaMA-3-70B)则未观察到该现象。
📝 摘要(中文)
本研究探讨了大型语言模型(LLMs)是否表现出否定诱导遗忘(NIF)现象。NIF是一种人类认知现象,当否定对象或事件的不正确属性时,与肯定正确属性相比,会导致对该对象或事件的回忆减少。我们采用了Zang et al. (2023)的实验框架,在ChatGPT-3.5、GPT-4o mini和Llama3-70b-instruct中测试了这种效应。结果表明,ChatGPT-3.5表现出NIF,否定信息比肯定信息更难回忆。GPT-4o-mini显示出略微显著的NIF效应,而LLaMA-3-70B没有表现出NIF。这些发现为某些LLM中存在否定诱导遗忘提供了初步证据,表明类似的认知偏差可能在这些模型中出现。这项工作是理解与记忆相关的现象如何在LLM中显现的初步步骤。
🔬 方法详解
问题定义:论文旨在研究大型语言模型(LLMs)是否会像人类一样,受到否定诱导遗忘(Negation-Induced Forgetting, NIF)的影响。现有方法缺乏对LLM认知偏差的系统性研究,特别是关于否定信息处理方面的研究。理解LLM如何处理否定信息对于提高其可靠性和避免错误信息传播至关重要。
核心思路:核心思路是借鉴心理学中研究人类NIF的实验范式,将其应用于LLM,通过比较LLM在肯定和否定情境下的信息回忆能力,来判断其是否存在NIF现象。如果LLM在否定情境下回忆相关信息的能力显著低于肯定情境,则认为其表现出NIF。
技术框架:研究采用了Zang et al. (2023)的实验框架,该框架涉及向模型提供关于某个对象或事件的描述,其中包含肯定或否定的属性信息。随后,测试模型对该对象或事件的回忆能力。实验主要分为两个阶段:信息编码阶段和信息回忆阶段。在信息编码阶段,模型接收包含肯定或否定属性的句子。在信息回忆阶段,模型被要求回忆与先前描述的对象或事件相关的信息。
关键创新:关键创新在于将心理学领域的认知偏差研究方法引入到LLM的评估中,提供了一种新的视角来理解LLM的内部机制和潜在局限性。通过这种跨学科的研究方法,可以更深入地了解LLM与人类认知之间的相似性和差异性。
关键设计:实验中,研究人员精心设计了肯定和否定两种类型的句子,以确保两种情境在语义上的平衡。例如,肯定句为“The apple is red”,否定句为“The apple is not blue”。研究人员还控制了其他可能影响回忆的因素,如句子的长度和复杂度。在信息回忆阶段,研究人员使用提示工程(prompt engineering)来引导模型回忆相关信息,并采用标准化的评估指标来衡量模型的回忆准确率。
🖼️ 关键图片
📊 实验亮点
实验结果显示,ChatGPT-3.5表现出显著的否定诱导遗忘效应,即否定信息的回忆率显著低于肯定信息。GPT-4o-mini显示出略微显著的NIF效应,而LLaMA-3-70B未观察到NIF现象。这些结果表明,不同的LLM在处理否定信息时存在差异,部分模型可能受到认知偏差的影响。
🎯 应用场景
该研究结果可应用于提升LLM在信息检索、问答系统等领域的性能。理解LLM的认知偏差有助于开发更可靠、更准确的AI系统,减少错误信息的传播。未来,可以基于此研究开发针对LLM的认知偏差缓解技术,提高其在复杂推理和决策任务中的表现。
📄 摘要(原文)
The study explores whether Large Language Models (LLMs) exhibit negation-induced forgetting (NIF), a cognitive phenomenon observed in humans where negating incorrect attributes of an object or event leads to diminished recall of this object or event compared to affirming correct attributes (Mayo et al., 2014; Zang et al., 2023). We adapted Zang et al. (2023) experimental framework to test this effect in ChatGPT-3.5, GPT-4o mini and Llama3-70b-instruct. Our results show that ChatGPT-3.5 exhibits NIF, with negated information being less likely to be recalled than affirmed information. GPT-4o-mini showed a marginally significant NIF effect, while LLaMA-3-70B did not exhibit NIF. The findings provide initial evidence of negation-induced forgetting in some LLMs, suggesting that similar cognitive biases may emerge in these models. This work is a preliminary step in understanding how memory-related phenomena manifest in LLMs.