On the attribution of confidence to large language models

📄 arXiv: 2407.08388v1 📥 PDF

作者: Geoff Keeling, Winnie Street

分类: cs.AI, cs.CL

发布日期: 2024-07-11

备注: 22 pages, 0 figures

DOI: 10.1080/0020174X.2025.2450598


💡 一句话要点

探讨大语言模型置信度归因的合理性与可靠性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 置信度归因 模型评估 哲学分析 人工智能安全

📋 核心要点

  1. 现有LLM评估研究常将置信度归因于LLM,但缺乏明确的理论基础,导致结果解读存在争议。
  2. 论文从语义、形而上学和认识论三个角度,论证了LLM置信度归因的合理性与潜在问题。
  3. 研究指出,即使LLM存在置信度,现有实验技术可能无法准确评估,从而质疑了LLM置信度归因的可靠性。

📝 摘要(中文)

本文探讨了将置信度归因于大型语言模型(LLM)的理论基础。在LLM评估的实证研究中,对LLM进行置信度归因非常普遍,但其理论依据尚不明确。本文提出了三个主张。首先,语义主张认为,LLM置信度归因应被字面理解为科学家表达的、旨在描述LLM置信度相关事实的、具有真值属性的信念。其次,形而上学主张认为,LLM置信度的存在至少是合理的,尽管目前的证据尚无定论。第三,认识论主张认为,在LLM评估的实证研究中进行的LLM置信度归因存在着重要的怀疑论问题。即使LLM确实具有置信度,LLM置信度归因也可能普遍为假,因为用于评估LLM置信度的实验技术可能无法追踪真值。

🔬 方法详解

问题定义:论文旨在解决LLM评估中置信度归因的理论基础问题。现有方法直接将置信度归因于LLM,缺乏对这种归因的合理性和可靠性的深入探讨,可能导致对LLM能力的误解。现有方法的痛点在于缺乏对LLM内部状态的有效理解和评估手段。

核心思路:论文的核心思路是从哲学角度分析LLM置信度归因的合理性。通过语义分析,论证LLM置信度归因可以被字面理解为科学家对LLM内部状态的信念。通过形而上学分析,探讨LLM是否可能具有置信度。通过认识论分析,质疑现有实验技术评估LLM置信度的可靠性。

技术框架:论文没有提出具体的技术框架,而是采用哲学论证的方式。其论证过程可以被视为一个评估LLM置信度归因合理性的框架,包含三个主要阶段:语义分析阶段,形而上学分析阶段,认识论分析阶段。

关键创新:论文的关键创新在于将哲学分析引入LLM评估领域,从根本上质疑了LLM置信度归因的合理性和可靠性。与现有方法直接进行置信度归因不同,论文强调需要对LLM内部状态的本质进行深入理解,并对现有评估技术的有效性进行严格审查。

关键设计:论文没有涉及具体的技术细节,而是侧重于概念分析和逻辑论证。其关键设计在于构建了一个三阶段的论证框架,分别从语义、形而上学和认识论角度对LLM置信度归因进行评估。

📊 实验亮点

论文通过哲学论证,强调了现有LLM置信度评估方法可能存在根本性缺陷,即使LLM具有置信度,现有技术也可能无法准确评估。这一结论对LLM评估领域具有重要的警示意义,并为未来的研究方向提供了新的视角。

🎯 应用场景

该研究成果可应用于LLM的更可靠的评估和校准,避免过度解读LLM的输出,并促进对LLM内部机制的更深入理解。有助于开发更安全、更可信赖的人工智能系统,并为未来的LLM研究提供理论指导。

📄 摘要(原文)

Credences are mental states corresponding to degrees of confidence in propositions. Attribution of credences to Large Language Models (LLMs) is commonplace in the empirical literature on LLM evaluation. Yet the theoretical basis for LLM credence attribution is unclear. We defend three claims. First, our semantic claim is that LLM credence attributions are (at least in general) correctly interpreted literally, as expressing truth-apt beliefs on the part of scientists that purport to describe facts about LLM credences. Second, our metaphysical claim is that the existence of LLM credences is at least plausible, although current evidence is inconclusive. Third, our epistemic claim is that LLM credence attributions made in the empirical literature on LLM evaluation are subject to non-trivial sceptical concerns. It is a distinct possibility that even if LLMs have credences, LLM credence attributions are generally false because the experimental techniques used to assess LLM credences are not truth-tracking.