Probing for Knowledge Attribution in Large Language Models

作者: Ivo Brink, Alexander Boer, Dennis Ulmer

分类: cs.CL, cs.AI

发布日期: 2026-02-26

💡 一句话要点

提出AttriWiki自监督数据管道，用于探究大语言模型知识归属问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 知识归属 自监督学习 幻觉检测 可信AI

📋 核心要点

大语言模型存在幻觉问题，难以确定其答案是源于prompt还是内部知识。
提出AttriWiki自监督数据管道，自动生成标注数据，训练探针预测知识来源。
实验表明，该探针在多个模型上表现出色，且知识归属错误与模型错误率直接相关。

📝 摘要（中文）

大型语言模型（LLMs）经常生成流畅但缺乏依据的主张，即幻觉，分为两种类型：（i）忠实性违规——滥用用户上下文；（ii）事实性违规——来自内部知识的错误。适当的缓解措施取决于了解模型的答案是基于提示还是其内部权重。这项工作侧重于贡献归属问题：识别每个输出背后起主导作用的知识来源。我们表明，一个探针，即在模型隐藏表示上训练的简单线性分类器，可以可靠地预测贡献归属。为了训练探针，我们引入了AttriWiki，这是一个自监督数据管道，它提示模型从记忆中回忆被 withheld 的实体或从上下文中读取它们，从而自动生成带标签的示例。在AttriWiki数据上训练的探针显示出强大的归属信号，在Llama-3.1-8B、Mistral-7B和Qwen-7B上实现了高达0.96的Macro-F1，无需重新训练即可转移到域外基准（SQuAD、WebQuestions），Macro-F1为0.94-0.99。归属不匹配使错误率提高了高达70%，表明知识来源混淆与不忠实答案之间存在直接联系。然而，即使归属正确，模型仍然可能做出不正确的响应，这突出了对更广泛的检测框架的需求。

🔬 方法详解

问题定义：大语言模型在生成答案时，其知识来源可能混淆，无法确定答案是基于用户提供的上下文（prompt）还是模型自身的内部知识。现有方法难以有效区分这两种知识来源，导致难以针对性地解决模型幻觉问题。

核心思路：通过训练一个探针（probe），即一个简单的线性分类器，来预测模型输出的知识来源。该探针基于模型的隐藏层表示进行训练，从而学习区分不同知识来源的特征。核心思想是，如果模型的答案主要依赖于prompt，那么其隐藏层表示应该包含更多与prompt相关的信息；反之，如果答案主要依赖于内部知识，则隐藏层表示应该包含更多与内部知识相关的信息。

技术框架：整体框架包含两个主要部分：AttriWiki自监督数据管道和探针训练。AttriWiki负责生成带标签的训练数据，它通过提示模型回忆被屏蔽的实体（来自内部知识）或从上下文中读取实体（来自prompt），从而创建正负样本。然后，使用这些数据训练探针，使其能够预测模型输出的知识来源。

关键创新：AttriWiki自监督数据管道是关键创新。它无需人工标注，即可自动生成大量高质量的训练数据，从而降低了训练探针的成本。此外，该方法直接针对知识归属问题，能够更准确地识别模型幻觉的根本原因。

关键设计：AttriWiki的关键设计在于其提示策略，它通过巧妙地设计提示语，引导模型使用不同的知识来源生成答案。探针的关键设计在于其线性分类器的结构，它足够简单，易于训练和解释，同时又能够有效地捕捉隐藏层表示中的关键信息。损失函数采用交叉熵损失函数，优化器采用AdamW。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在Llama-3.1-8B、Mistral-7B和Qwen-7B等模型上，该探针能够以高达0.96的Macro-F1值准确预测知识来源。此外，该探针还能够成功迁移到SQuAD和WebQuestions等域外基准，Macro-F1值达到0.94-0.99，无需重新训练。研究还发现，知识归属不匹配会导致模型错误率提高高达70%。

🎯 应用场景

该研究成果可应用于提升大语言模型的可信度和可靠性。通过识别知识来源，可以更好地诊断和解决模型幻觉问题，从而提高模型在问答、信息检索等任务中的准确性和一致性。此外，该方法还可以用于评估不同模型的知识掌握程度和知识迁移能力。

📄 摘要（原文）

Large language models (LLMs) often generate fluent but unfounded claims, or hallucinations, which fall into two types: (i) faithfulness violations - misusing user context - and (ii) factuality violations - errors from internal knowledge. Proper mitigation depends on knowing whether a model's answer is based on the prompt or its internal weights. This work focuses on the problem of contributive attribution: identifying the dominant knowledge source behind each output. We show that a probe, a simple linear classifier trained on model hidden representations, can reliably predict contributive attribution. For its training, we introduce AttriWiki, a self-supervised data pipeline that prompts models to recall withheld entities from memory or read them from context, generating labelled examples automatically. Probes trained on AttriWiki data reveal a strong attribution signal, achieving up to 0.96 Macro-F1 on Llama-3.1-8B, Mistral-7B, and Qwen-7B, transferring to out-of-domain benchmarks (SQuAD, WebQuestions) with 0.94-0.99 Macro-F1 without retraining. Attribution mismatches raise error rates by up to 70%, demonstrating a direct link between knowledge source confusion and unfaithful answers. Yet, models may still respond incorrectly even when attribution is correct, highlighting the need for broader detection frameworks.

Probing for Knowledge Attribution in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理