Are Large Language Models More Honest in Their Probabilistic or Verbalized Confidence?

📄 arXiv: 2408.09773v1 📥 PDF

作者: Shiyu Ni, Keping Bi, Lulu Yu, Jiafeng Guo

分类: cs.CL

发布日期: 2024-08-19


💡 一句话要点

对比研究LLM概率置信度和语言置信度,揭示知识边界感知的差异与联系

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 知识边界感知 概率置信度 语言置信度 幻觉问题

📋 核心要点

  1. 现有研究缺乏对LLM概率置信度和语言置信度差异的深入分析,阻碍了模型知识边界感知的提升。
  2. 该论文对比研究了LLM的概率置信度和语言置信度,分析其优缺点,并考察它们在不同问题频率下的表现。
  3. 实验表明,概率置信度通常更准确,但需领域内验证集调整阈值;两种感知在低频问题上表现更好;LLM难以准确表达内部置信度。

📝 摘要(中文)

大型语言模型(LLM)在超出其内部知识范围的问题上容易产生幻觉。一个可靠的模型应该对其知识边界有清晰的感知,在其范围内提供正确的答案,并在缺乏知识时拒绝回答。目前关于LLM知识边界感知的研究通常使用生成token的概率或口头表达的置信度作为模型对其响应的置信度。然而,这些研究忽略了两者之间的差异和联系。本文对LLM对事实知识边界的概率感知和口头感知进行了全面的分析和比较。首先,我们研究了这两种感知的优缺点。然后,我们研究了它们在不同频率的问题下的变化。最后,我们测量了LLM的概率置信度和口头置信度之间的相关性。实验结果表明:1) LLM的概率感知通常比口头感知更准确,但需要一个领域内的验证集来调整置信度阈值。2) 两种感知在不太频繁的问题上表现更好。3) LLM很难用自然语言准确表达其内部置信度。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在超出其知识边界时产生幻觉的问题。现有方法主要依赖概率置信度或语言置信度来评估模型对答案的确定程度,但忽略了二者之间的差异和联系,导致模型无法准确判断自身知识边界,影响回答的可靠性。

核心思路:论文的核心思路是对比分析LLM的概率置信度和语言置信度,揭示它们在知识边界感知上的差异和联系。通过考察两种置信度在不同问题频率下的表现,以及它们之间的相关性,从而更全面地理解LLM的知识边界感知能力。

技术框架:论文的技术框架主要包括三个部分:1) 对比分析概率置信度和语言置信度的优缺点;2) 研究两种置信度在不同问题频率下的变化;3) 测量LLM的概率置信度和语言置信度之间的相关性。具体而言,概率置信度通过计算生成token的概率得到,语言置信度则通过模型生成的自然语言表达来评估。

关键创新:论文的关键创新在于首次对LLM的概率置信度和语言置信度进行了全面的对比分析,揭示了二者在知识边界感知上的差异和联系。与现有研究仅关注单一置信度指标不同,该论文从多个角度考察了两种置信度的表现,为更准确地评估LLM的知识边界感知能力提供了新的视角。

关键设计:论文的关键设计包括:1) 使用不同频率的事实性问题作为测试集,以考察两种置信度在不同知识覆盖度下的表现;2) 设计实验来测量概率置信度和语言置信度之间的相关性,以评估LLM是否能够准确地将内部置信度转化为自然语言表达;3) 使用领域内验证集来调整概率置信度的阈值,以提高其准确性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,LLM的概率感知通常比语言感知更准确,但需要领域内验证集调整置信度阈值。两种感知在不太频繁的问题上表现更好。此外,实验还发现LLM难以用自然语言准确表达其内部置信度,这表明模型在知识表达方面仍存在局限性。

🎯 应用场景

该研究成果可应用于提升LLM的可靠性和可信度,尤其是在需要高准确性的场景,如医疗诊断、金融分析等。通过更准确地评估LLM的知识边界,可以避免模型在不确定情况下给出错误的答案,从而降低风险。未来,该研究可以扩展到其他类型的知识密集型任务,并探索更有效的知识边界感知方法。

📄 摘要(原文)

Large language models (LLMs) have been found to produce hallucinations when the question exceeds their internal knowledge boundaries. A reliable model should have a clear perception of its knowledge boundaries, providing correct answers within its scope and refusing to answer when it lacks knowledge. Existing research on LLMs' perception of their knowledge boundaries typically uses either the probability of the generated tokens or the verbalized confidence as the model's confidence in its response. However, these studies overlook the differences and connections between the two. In this paper, we conduct a comprehensive analysis and comparison of LLMs' probabilistic perception and verbalized perception of their factual knowledge boundaries. First, we investigate the pros and cons of these two perceptions. Then, we study how they change under questions of varying frequencies. Finally, we measure the correlation between LLMs' probabilistic confidence and verbalized confidence. Experimental results show that 1) LLMs' probabilistic perception is generally more accurate than verbalized perception but requires an in-domain validation set to adjust the confidence threshold. 2) Both perceptions perform better on less frequent questions. 3) It is challenging for LLMs to accurately express their internal confidence in natural language.