Probing for Knowledge Attribution in Large Language Models

作者: Ivo Brink, Alexander Boer, Dennis Ulmer

分类: cs.CL, cs.AI

发布日期: 2026-02-28

💡 一句话要点

提出AttriWiki自监督数据管道，用于探究大语言模型知识归属问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 知识归属 自监督学习 探针 幻觉检测

📋 核心要点

大语言模型存在幻觉问题，难以确定其答案是基于prompt还是内部知识。
提出AttriWiki自监督数据管道，自动生成标注数据，训练探针预测知识来源。
实验表明探针能有效预测知识归属，且归属错误与模型幻觉直接相关。

📝 摘要（中文）

大型语言模型(LLMs)经常生成流畅但缺乏依据的主张，即幻觉，可分为两类：(i)忠实性违背——误用用户上下文；(ii)事实性违背——来自内部知识的错误。适当的缓解措施取决于了解模型的答案是基于提示还是其内部权重。本文重点关注贡献归属问题：识别每个输出背后起主导作用的知识来源。我们表明，一个探针，即在模型隐藏表示上训练的简单线性分类器，可以可靠地预测贡献归属。为了训练探针，我们引入了AttriWiki，这是一个自监督数据管道，它提示模型从记忆中回忆被 withheld 的实体或从上下文中读取它们，从而自动生成带标签的示例。在AttriWiki数据上训练的探针显示出强大的归属信号，在Llama-3.1-8B、Mistral-7B和Qwen-7B上实现了高达0.96的Macro-F1，无需重新训练即可转移到领域外基准测试(SQuAD、WebQuestions)，Macro-F1达到0.94-0.99。归属不匹配使错误率提高了高达70%，表明知识来源混淆与不忠实答案之间存在直接联系。然而，即使归属正确，模型仍然可能做出不正确的响应，这突出了对更广泛的检测框架的需求。

🔬 方法详解

问题定义：论文旨在解决大语言模型中知识归属问题，即确定模型生成答案时，主要依赖的是prompt提供的上下文信息，还是模型自身存储的内部知识。现有方法难以有效区分这两种知识来源，导致无法针对性地缓解模型幻觉问题。

核心思路：论文的核心思路是训练一个探针（probe），通过分析模型在生成答案过程中的隐藏层表示，来预测模型主要依赖的知识来源。如果探针预测模型依赖prompt，而实际上模型依赖内部知识，则可能导致幻觉。

技术框架：整体框架包含两个主要部分：AttriWiki数据生成管道和探针训练与评估。AttriWiki首先构建包含上下文信息和目标实体的数据集，然后提示模型生成答案，并根据生成方式（从上下文读取或从记忆中回忆）自动标注数据。接着，使用这些标注数据训练一个线性分类器作为探针，用于预测模型在生成答案时的知识来源。最后，在领域内和领域外数据集上评估探针的性能，并分析知识归属错误与模型幻觉之间的关系。

关键创新：论文的关键创新在于提出了AttriWiki自监督数据生成管道，能够自动生成大规模的标注数据，用于训练知识归属探针。这种方法避免了人工标注的成本和偏差，使得探针能够更好地适应不同模型和任务。

关键设计：AttriWiki管道的关键设计包括：(1) 使用特定的prompt模板，引导模型从上下文读取或从记忆中回忆目标实体；(2) 使用线性分类器作为探针，以降低训练成本和提高泛化能力；(3) 在多个模型（Llama-3.1-8B、Mistral-7B、Qwen-7B）和数据集（AttriWiki、SQuAD、WebQuestions）上进行评估，以验证探针的有效性和鲁棒性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在AttriWiki数据集上训练的探针在Llama-3.1-8B、Mistral-7B和Qwen-7B模型上实现了高达0.96的Macro-F1值。此外，该探针能够零样本迁移到SQuAD和WebQuestions等领域外数据集，Macro-F1值达到0.94-0.99。研究还发现，知识归属错误与模型幻觉之间存在显著相关性，归属不匹配使错误率提高了高达70%。

🎯 应用场景

该研究成果可应用于提升大语言模型的可信度和可靠性。通过知识归属探针，可以检测模型是否正确利用了prompt信息，从而避免幻觉的产生。此外，该技术还可以用于评估不同模型的知识来源偏好，指导模型训练和优化，并为开发更安全、更可靠的AI系统提供支持。

📄 摘要（原文）

Large language models (LLMs) often generate fluent but unfounded claims, or hallucinations, which fall into two types: (i) faithfulness violations - misusing user context - and (ii) factuality violations - errors from internal knowledge. Proper mitigation depends on knowing whether a model's answer is based on the prompt or its internal weights. This work focuses on the problem of contributive attribution: identifying the dominant knowledge source behind each output. We show that a probe, a simple linear classifier trained on model hidden representations, can reliably predict contributive attribution. For its training, we introduce AttriWiki, a self-supervised data pipeline that prompts models to recall withheld entities from memory or read them from context, generating labelled examples automatically. Probes trained on AttriWiki data reveal a strong attribution signal, achieving up to 0.96 Macro-F1 on Llama-3.1-8B, Mistral-7B, and Qwen-7B, transferring to out-of-domain benchmarks (SQuAD, WebQuestions) with 0.94-0.99 Macro-F1 without retraining. Attribution mismatches raise error rates by up to 70%, demonstrating a direct link between knowledge source confusion and unfaithful answers. Yet, models may still respond incorrectly even when attribution is correct, highlighting the need for broader detection frameworks.

Probing for Knowledge Attribution in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理