Do We Know What LLMs Don't Know? A Study of Consistency in Knowledge Probing

📄 arXiv: 2505.21701v2 📥 PDF

作者: Raoyuan Zhao, Abdullatif Köksal, Ali Modarressi, Michael A. Hedderich, Hinrich Schütze

分类: cs.CL

发布日期: 2025-05-27 (更新: 2025-05-30)


💡 一句话要点

揭示大语言模型知识探测的不一致性,强调鲁棒性探测框架的重要性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 知识探测 一致性 鲁棒性 幻觉 提示工程 评估框架

📋 核心要点

  1. 现有大语言模型易产生幻觉,精确识别其知识盲区是关键挑战。
  2. 论文提出基于输入扰动的评估流程,量化探测方法的一致性。
  3. 实验揭示了方法内部和方法之间的不一致性,突显鲁棒探测的必要性。

📝 摘要(中文)

大语言模型(LLM)的可靠性因其幻觉倾向而大打折扣,因此需要精确识别LLM中的知识差距。目前存在各种探测此类差距的方法,从基于校准的方法到基于提示的方法。为了评估这些探测方法,本文提出了一种基于输入变化和定量指标的新流程。通过这种方式,我们揭示了知识差距探测中两个维度的不一致性。(1)方法内不一致性:提示中最小的非语义扰动会导致同一探测方法中检测到的知识差距产生相当大的差异;例如,简单地改变答案选项的顺序可以将一致性降低到40%左右。(2)方法间不一致性:探测方法在模型是否知道答案上相互矛盾。即使模型、数据集和提示都相同,方法之间也高度不一致——决策一致性低至7%。这些发现挑战了现有的探测方法,并强调了对扰动鲁棒的探测框架的迫切需求。

🔬 方法详解

问题定义:论文旨在解决现有大语言模型知识探测方法可靠性不足的问题。现有方法对提示的微小变化非常敏感,导致探测结果不稳定,无法准确反映模型的真实知识水平。这种不稳定性使得我们难以信任这些方法来识别模型的知识盲区,进而影响下游任务的性能。

核心思路:论文的核心思路是通过引入输入扰动,系统性地评估现有知识探测方法的一致性。通过观察在不同扰动下探测结果的变化,可以量化方法对扰动的敏感程度,从而揭示其内在的不稳定性。这种方法能够帮助我们更好地理解现有探测方法的局限性,并为开发更鲁棒的探测框架提供指导。

技术框架:论文提出的评估流程主要包含以下几个步骤:1) 选择一种知识探测方法;2) 构建包含问题和答案选项的提示;3) 对提示进行微小的非语义扰动,例如改变答案选项的顺序或使用不同的措辞;4) 使用扰动后的提示再次进行知识探测;5) 比较原始提示和扰动后提示的探测结果,计算一致性指标。通过重复以上步骤,可以评估不同探测方法在不同扰动下的表现。

关键创新:论文的关键创新在于提出了一个系统性的评估框架,用于量化知识探测方法的一致性。该框架通过引入输入扰动,模拟了实际应用中可能遇到的各种情况,从而更全面地评估了方法的鲁棒性。此外,论文还提出了具体的量化指标,用于衡量方法内部和方法之间的不一致性,使得评估结果更加客观和可比。

关键设计:论文中使用的扰动方式包括但不限于:答案选项的顺序改变、提示语的措辞变化、问题陈述的细微调整等。一致性指标的计算方式包括:准确率、F1 值、以及基于决策一致性的指标。具体选择哪种扰动方式和一致性指标取决于具体的实验设置和研究目的。论文并没有限定特定的参数设置、损失函数或网络结构,因为其关注点在于评估现有方法的鲁棒性,而不是提出一种新的探测方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是微小的非语义扰动,也会导致现有知识探测方法的结果产生显著差异。例如,改变答案选项的顺序可以将方法内部的一致性降低到40%左右。不同方法之间的决策一致性甚至低至7%,这表明现有方法在知识探测方面存在严重的不一致性。

🎯 应用场景

该研究成果可应用于大语言模型的安全性和可靠性评估,帮助开发者识别模型的知识盲区,从而改进模型训练,减少幻觉现象。此外,该研究也有助于开发更可靠的知识库构建和问答系统,提升用户体验。

📄 摘要(原文)

The reliability of large language models (LLMs) is greatly compromised by their tendency to hallucinate, underscoring the need for precise identification of knowledge gaps within LLMs. Various methods for probing such gaps exist, ranging from calibration-based to prompting-based methods. To evaluate these probing methods, in this paper, we propose a new process based on using input variations and quantitative metrics. Through this, we expose two dimensions of inconsistency in knowledge gap probing. (1) Intra-method inconsistency: Minimal non-semantic perturbations in prompts lead to considerable variance in detected knowledge gaps within the same probing method; e.g., the simple variation of shuffling answer options can decrease agreement to around 40%. (2) Cross-method inconsistency: Probing methods contradict each other on whether a model knows the answer. Methods are highly inconsistent -- with decision consistency across methods being as low as 7% -- even though the model, dataset, and prompt are all the same. These findings challenge existing probing methods and highlight the urgent need for perturbation-robust probing frameworks.