Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models
作者: Javier Ferrando, Oscar Obeso, Senthooran Rajamanoharan, Neel Nanda
分类: cs.CL, cs.AI, cs.LG
发布日期: 2024-11-21 (更新: 2025-02-08)
备注: Accepted at ICLR 2025
💡 一句话要点
利用稀疏自编码器发现语言模型中的知识感知机制与幻觉现象
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 幻觉 稀疏自编码器 可解释性 知识感知 实体识别 因果干预
📋 核心要点
- 大型语言模型容易产生幻觉,但其内在机制尚不明确,阻碍了有效缓解幻觉现象的研究。
- 论文利用稀疏自编码器识别模型内部的实体识别能力,揭示模型具备一定的“自我知识”。
- 实验表明,识别出的方向能够引导模型拒绝回答已知实体问题或对未知实体产生幻觉。
📝 摘要(中文)
大型语言模型中的幻觉是一个普遍存在的问题,但模型产生幻觉背后的机制却知之甚少,这限制了我们解决该问题的能力。本文利用稀疏自编码器作为可解释性工具,发现这些机制的一个关键部分是实体识别,即模型检测它是否可以回忆起关于某个实体的事实。稀疏自编码器揭示了表示空间中有意义的方向,这些方向可以检测模型是否识别某个实体,例如检测到它不了解某个运动员或电影。这表明模型可能具有自我知识:关于自身能力的内部表示。这些方向具有因果相关性:能够引导模型拒绝回答关于已知实体的问题,或者在它原本会拒绝回答时,产生关于未知实体的属性的幻觉。我们证明,尽管稀疏自编码器是在基础模型上训练的,但这些方向对聊天模型的拒绝行为具有因果影响,这表明聊天微调已经重新利用了这种现有机制。此外,我们还初步探索了这些方向在模型中的机制作用,发现它们会扰乱下游头的注意力,而这些下游头通常会将实体属性移动到最终token。
🔬 方法详解
问题定义:大型语言模型(LLM)在生成文本时经常出现“幻觉”现象,即生成不真实或与事实相悖的内容。现有的方法难以有效解决这一问题,因为对LLM产生幻觉的内在机制理解不足,尤其是在知识层面,模型如何判断自己是否“知道”某个实体的信息,以及这种判断如何影响其生成行为,仍然是未知的。
核心思路:本文的核心思路是利用稀疏自编码器(Sparse Autoencoders)作为一种可解释性工具,来探究LLM内部的知识感知机制。通过训练稀疏自编码器来识别LLM的内部表示中与实体识别相关的方向,从而理解模型如何判断自己是否“知道”某个实体,以及这种判断如何影响其生成行为。这种方法旨在揭示模型产生幻觉的根本原因,并为解决幻觉问题提供新的思路。
技术框架:该研究的技术框架主要包含以下几个步骤:1) 使用预训练的LLM(例如GPT模型);2) 利用稀疏自编码器对LLM的内部表示进行分析,寻找与实体识别相关的神经元激活模式;3) 通过干预这些神经元的激活状态,观察对LLM生成行为的影响,从而验证这些神经元在知识感知和幻觉产生中的作用;4) 分析这些神经元如何影响下游的注意力机制,从而影响最终的生成结果。
关键创新:该论文的关键创新在于:1) 使用稀疏自编码器来识别LLM内部的知识感知机制,这是一种新颖的可解释性方法;2) 发现LLM可能具备“自我知识”,即能够感知自己是否“知道”某个实体的信息;3) 揭示了这种知识感知机制与幻觉现象之间的因果关系,为解决幻觉问题提供了新的视角。
关键设计:稀疏自编码器的关键设计在于其稀疏性约束,这使得它能够学习到LLM内部表示中更具代表性和可解释性的特征。具体的参数设置包括稀疏惩罚系数、自编码器的隐藏层大小等。此外,论文还设计了一系列的干预实验,通过改变特定神经元的激活状态,来观察对LLM生成行为的影响,从而验证这些神经元在知识感知和幻觉产生中的作用。
🖼️ 关键图片
📊 实验亮点
研究发现,通过稀疏自编码器识别出的方向能够引导模型拒绝回答已知实体的问题,或在原本拒绝回答时对未知实体产生幻觉。即使稀疏自编码器在基础模型上训练,这些方向仍然对聊天模型的拒绝行为产生因果影响,表明聊天微调重用了已存在的机制。
🎯 应用场景
该研究成果可应用于提升大型语言模型的可靠性和可信度,减少其在知识密集型任务中产生幻觉的可能性。例如,在问答系统、知识图谱构建、内容生成等领域,可以利用该方法来提高模型输出的准确性和一致性。此外,该研究也为开发更具自我意识和可控性的AI系统提供了新的思路。
📄 摘要(原文)
Hallucinations in large language models are a widespread problem, yet the mechanisms behind whether models will hallucinate are poorly understood, limiting our ability to solve this problem. Using sparse autoencoders as an interpretability tool, we discover that a key part of these mechanisms is entity recognition, where the model detects if an entity is one it can recall facts about. Sparse autoencoders uncover meaningful directions in the representation space, these detect whether the model recognizes an entity, e.g. detecting it doesn't know about an athlete or a movie. This suggests that models can have self-knowledge: internal representations about their own capabilities. These directions are causally relevant: capable of steering the model to refuse to answer questions about known entities, or to hallucinate attributes of unknown entities when it would otherwise refuse. We demonstrate that despite the sparse autoencoders being trained on the base model, these directions have a causal effect on the chat model's refusal behavior, suggesting that chat finetuning has repurposed this existing mechanism. Furthermore, we provide an initial exploration into the mechanistic role of these directions in the model, finding that they disrupt the attention of downstream heads that typically move entity attributes to the final token.