Probing for Knowledge Attribution in Large Language Models

📄 arXiv: 2602.22787 📥 PDF

作者: Ivo Brink, Alexander Boer, Dennis Ulmer

分类: cs.CL, cs.AI

发布日期: 2026-02-28


💡 一句话要点

提出AttriWiki自监督数据管道,用于探究大语言模型知识归属问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 知识归属 自监督学习 探针 幻觉检测

📋 核心要点

  1. 大语言模型存在幻觉问题,难以确定其答案是基于prompt还是内部知识。
  2. 提出AttriWiki自监督数据管道,自动生成标注数据,训练探针预测知识来源。
  3. 实验表明探针能有效预测知识归属,且归属错误与模型幻觉直接相关。

📝 摘要(中文)

大型语言模型(LLMs)经常生成流畅但缺乏依据的主张,即幻觉,可分为两类:(i)忠实性违背——误用用户上下文;(ii)事实性违背——来自内部知识的错误。适当的缓解措施取决于了解模型的答案是基于提示还是其内部权重。本文重点关注贡献归属问题:识别每个输出背后起主导作用的知识来源。我们表明,一个探针,即在模型隐藏表示上训练的简单线性分类器,可以可靠地预测贡献归属。为了训练探针,我们引入了AttriWiki,这是一个自监督数据管道,它提示模型从记忆中回忆被 withheld 的实体或从上下文中读取它们,从而自动生成带标签的示例。在AttriWiki数据上训练的探针显示出强大的归属信号,在Llama-3.1-8B、Mistral-7B和Qwen-7B上实现了高达0.96的Macro-F1,无需重新训练即可转移到领域外基准测试(SQuAD、WebQuestions),Macro-F1达到0.94-0.99。归属不匹配使错误率提高了高达70%,表明知识来源混淆与不忠实答案之间存在直接联系。然而,即使归属正确,模型仍然可能做出不正确的响应,这突出了对更广泛的检测框架的需求。

🔬 方法详解

问题定义:论文旨在解决大语言模型中知识归属问题,即确定模型生成答案时,主要依赖的是prompt提供的上下文信息,还是模型自身存储的内部知识。现有方法难以有效区分这两种知识来源,导致无法针对性地缓解模型幻觉问题。

核心思路:论文的核心思路是训练一个探针(probe),通过分析模型在生成答案过程中的隐藏层表示,来预测模型主要依赖的知识来源。如果探针预测模型依赖prompt,而实际上模型依赖内部知识,则可能导致幻觉。

技术框架:整体框架包含两个主要部分:AttriWiki数据生成管道和探针训练与评估。AttriWiki首先构建包含上下文信息和目标实体的数据集,然后提示模型生成答案,并根据生成方式(从上下文读取或从记忆中回忆)自动标注数据。接着,使用这些标注数据训练一个线性分类器作为探针,用于预测模型在生成答案时的知识来源。最后,在领域内和领域外数据集上评估探针的性能,并分析知识归属错误与模型幻觉之间的关系。

关键创新:论文的关键创新在于提出了AttriWiki自监督数据生成管道,能够自动生成大规模的标注数据,用于训练知识归属探针。这种方法避免了人工标注的成本和偏差,使得探针能够更好地适应不同模型和任务。

关键设计:AttriWiki管道的关键设计包括:(1) 使用特定的prompt模板,引导模型从上下文读取或从记忆中回忆目标实体;(2) 使用线性分类器作为探针,以降低训练成本和提高泛化能力;(3) 在多个模型(Llama-3.1-8B、Mistral-7B、Qwen-7B)和数据集(AttriWiki、SQuAD、WebQuestions)上进行评估,以验证探针的有效性和鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在AttriWiki数据集上训练的探针在Llama-3.1-8B、Mistral-7B和Qwen-7B模型上实现了高达0.96的Macro-F1值。此外,该探针能够零样本迁移到SQuAD和WebQuestions等领域外数据集,Macro-F1值达到0.94-0.99。研究还发现,知识归属错误与模型幻觉之间存在显著相关性,归属不匹配使错误率提高了高达70%。

🎯 应用场景

该研究成果可应用于提升大语言模型的可信度和可靠性。通过知识归属探针,可以检测模型是否正确利用了prompt信息,从而避免幻觉的产生。此外,该技术还可以用于评估不同模型的知识来源偏好,指导模型训练和优化,并为开发更安全、更可靠的AI系统提供支持。

📄 摘要(原文)

Large language models (LLMs) often generate fluent but unfounded claims, or hallucinations, which fall into two types: (i) faithfulness violations - misusing user context - and (ii) factuality violations - errors from internal knowledge. Proper mitigation depends on knowing whether a model's answer is based on the prompt or its internal weights. This work focuses on the problem of contributive attribution: identifying the dominant knowledge source behind each output. We show that a probe, a simple linear classifier trained on model hidden representations, can reliably predict contributive attribution. For its training, we introduce AttriWiki, a self-supervised data pipeline that prompts models to recall withheld entities from memory or read them from context, generating labelled examples automatically. Probes trained on AttriWiki data reveal a strong attribution signal, achieving up to 0.96 Macro-F1 on Llama-3.1-8B, Mistral-7B, and Qwen-7B, transferring to out-of-domain benchmarks (SQuAD, WebQuestions) with 0.94-0.99 Macro-F1 without retraining. Attribution mismatches raise error rates by up to 70%, demonstrating a direct link between knowledge source confusion and unfaithful answers. Yet, models may still respond incorrectly even when attribution is correct, highlighting the need for broader detection frameworks.