Probing for Knowledge Attribution in Large Language Models
作者: Ivo Brink, Alexander Boer, Dennis Ulmer
分类: cs.CL, cs.AI
发布日期: 2026-02-26
💡 一句话要点
提出AttriWiki自监督数据管道,用于探究大语言模型知识归属问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 知识归属 自监督学习 幻觉检测 可信AI
📋 核心要点
- 大语言模型存在幻觉问题,难以确定其答案是源于prompt还是内部知识。
- 提出AttriWiki自监督数据管道,自动生成标注数据,训练探针预测知识来源。
- 实验表明,该探针在多个模型上表现出色,且知识归属错误与模型错误率直接相关。
📝 摘要(中文)
大型语言模型(LLMs)经常生成流畅但缺乏依据的主张,即幻觉,分为两种类型:(i)忠实性违规——滥用用户上下文;(ii)事实性违规——来自内部知识的错误。适当的缓解措施取决于了解模型的答案是基于提示还是其内部权重。这项工作侧重于贡献归属问题:识别每个输出背后起主导作用的知识来源。我们表明,一个探针,即在模型隐藏表示上训练的简单线性分类器,可以可靠地预测贡献归属。为了训练探针,我们引入了AttriWiki,这是一个自监督数据管道,它提示模型从记忆中回忆被 withheld 的实体或从上下文中读取它们,从而自动生成带标签的示例。在AttriWiki数据上训练的探针显示出强大的归属信号,在Llama-3.1-8B、Mistral-7B和Qwen-7B上实现了高达0.96的Macro-F1,无需重新训练即可转移到域外基准(SQuAD、WebQuestions),Macro-F1为0.94-0.99。归属不匹配使错误率提高了高达70%,表明知识来源混淆与不忠实答案之间存在直接联系。然而,即使归属正确,模型仍然可能做出不正确的响应,这突出了对更广泛的检测框架的需求。
🔬 方法详解
问题定义:大语言模型在生成答案时,其知识来源可能混淆,无法确定答案是基于用户提供的上下文(prompt)还是模型自身的内部知识。现有方法难以有效区分这两种知识来源,导致难以针对性地解决模型幻觉问题。
核心思路:通过训练一个探针(probe),即一个简单的线性分类器,来预测模型输出的知识来源。该探针基于模型的隐藏层表示进行训练,从而学习区分不同知识来源的特征。核心思想是,如果模型的答案主要依赖于prompt,那么其隐藏层表示应该包含更多与prompt相关的信息;反之,如果答案主要依赖于内部知识,则隐藏层表示应该包含更多与内部知识相关的信息。
技术框架:整体框架包含两个主要部分:AttriWiki自监督数据管道和探针训练。AttriWiki负责生成带标签的训练数据,它通过提示模型回忆被屏蔽的实体(来自内部知识)或从上下文中读取实体(来自prompt),从而创建正负样本。然后,使用这些数据训练探针,使其能够预测模型输出的知识来源。
关键创新:AttriWiki自监督数据管道是关键创新。它无需人工标注,即可自动生成大量高质量的训练数据,从而降低了训练探针的成本。此外,该方法直接针对知识归属问题,能够更准确地识别模型幻觉的根本原因。
关键设计:AttriWiki的关键设计在于其提示策略,它通过巧妙地设计提示语,引导模型使用不同的知识来源生成答案。探针的关键设计在于其线性分类器的结构,它足够简单,易于训练和解释,同时又能够有效地捕捉隐藏层表示中的关键信息。损失函数采用交叉熵损失函数,优化器采用AdamW。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在Llama-3.1-8B、Mistral-7B和Qwen-7B等模型上,该探针能够以高达0.96的Macro-F1值准确预测知识来源。此外,该探针还能够成功迁移到SQuAD和WebQuestions等域外基准,Macro-F1值达到0.94-0.99,无需重新训练。研究还发现,知识归属不匹配会导致模型错误率提高高达70%。
🎯 应用场景
该研究成果可应用于提升大语言模型的可信度和可靠性。通过识别知识来源,可以更好地诊断和解决模型幻觉问题,从而提高模型在问答、信息检索等任务中的准确性和一致性。此外,该方法还可以用于评估不同模型的知识掌握程度和知识迁移能力。
📄 摘要(原文)
Large language models (LLMs) often generate fluent but unfounded claims, or hallucinations, which fall into two types: (i) faithfulness violations - misusing user context - and (ii) factuality violations - errors from internal knowledge. Proper mitigation depends on knowing whether a model's answer is based on the prompt or its internal weights. This work focuses on the problem of contributive attribution: identifying the dominant knowledge source behind each output. We show that a probe, a simple linear classifier trained on model hidden representations, can reliably predict contributive attribution. For its training, we introduce AttriWiki, a self-supervised data pipeline that prompts models to recall withheld entities from memory or read them from context, generating labelled examples automatically. Probes trained on AttriWiki data reveal a strong attribution signal, achieving up to 0.96 Macro-F1 on Llama-3.1-8B, Mistral-7B, and Qwen-7B, transferring to out-of-domain benchmarks (SQuAD, WebQuestions) with 0.94-0.99 Macro-F1 without retraining. Attribution mismatches raise error rates by up to 70%, demonstrating a direct link between knowledge source confusion and unfaithful answers. Yet, models may still respond incorrectly even when attribution is correct, highlighting the need for broader detection frameworks.