The Trilemma of Truth in Large Language Models

📄 arXiv: 2506.23921v4 📥 PDF

作者: Germans Savcisens, Tina Eliassi-Rad

分类: cs.CL, cs.LG, stat.ML

发布日期: 2025-06-30 (更新: 2025-11-14)

备注: Camera-ready (non-archival) version accepted at the Mechanistic Interpretability Workshop at NeurIPS 2025. The main text is 10 pages long (plus 3 pages of references); supplementary material (58 pages) is included in the same PDF


💡 一句话要点

提出sAwMIL框架以解决大语言模型真伪性验证问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 真实性验证 多实例学习 符合预测 自然语言处理 信息检索

📋 核心要点

  1. 现有的验证方法存在缺陷,无法可靠地判断LLMs所编码知识的真实性。
  2. 提出的sAwMIL框架结合了多实例学习和符合预测,旨在更准确地分类信息的真实性。
  3. 实验结果显示,sAwMIL在多个LLMs上表现优于传统方法,揭示了真与假之间的不对称性。

📝 摘要(中文)

公众常常将人类特质归于大型语言模型(LLMs),并假设它们“知道”某些事情。实际上,LLMs在训练过程中编码的信息是内部的概率知识。本文研究了现有的验证这些知识真实性的方法,并识别出几个存在的假设缺陷。为了解决这些缺陷,我们提出了sAwMIL(稀疏感知多实例学习),一个结合多实例学习与符合预测的多类探测框架。sAwMIL利用LLMs的内部激活来将陈述分类为真、假或不确定。我们在16个开源LLMs上评估了sAwMIL,包括默认和基于聊天的变体,使用了三个新创建的数据集。结果表明,常见的探测方法无法提供可靠的真实性方向,并且在某些情况下表现甚至不如零-shot提示。

🔬 方法详解

问题定义:本文旨在解决大型语言模型(LLMs)所编码知识的真实性验证问题。现有方法在判断真伪性时存在多种假设缺陷,导致结果不可靠。

核心思路:sAwMIL框架结合多实例学习与符合预测,利用LLMs的内部激活信息来分类陈述的真实性。这种设计旨在克服传统方法的局限性,提供更准确的分类结果。

技术框架:sAwMIL的整体架构包括数据预处理、内部激活提取、多实例学习模块和符合预测模块。首先提取LLMs的内部激活,然后通过多实例学习进行分类,最后使用符合预测来评估分类的可靠性。

关键创新:sAwMIL的主要创新在于其结合了多实例学习与符合预测的方式,使得对真、假和不确定性信号的分类更加精确。这与现有方法的单一分类方式形成了显著对比。

关键设计:在sAwMIL中,关键参数包括多实例学习的实例数量和符合预测的置信度阈值。此外,损失函数设计为结合分类准确性与不确定性评估,以优化模型性能。实验中使用的网络结构为基于Transformer的架构,适应性强。

📊 实验亮点

实验结果表明,sAwMIL在16个开源LLMs上的表现优于传统探测方法,尤其是在处理真与假信息的不对称性方面。具体而言,在某些设置下,sAwMIL的性能提升幅度超过了20%,显著提高了分类的可靠性和准确性。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、信息检索和自动问答系统。通过提高对LLMs知识真实性的验证能力,能够增强用户对AI系统的信任,并推动更安全的AI应用开发。未来,该框架可能在法律、医疗等需要高准确性的信息验证领域发挥重要作用。

📄 摘要(原文)

The public often attributes human-like qualities to large language models (LLMs) and assumes they "know" certain things. In reality, LLMs encode information retained during training as internal probabilistic knowledge. This study examines existing methods for probing the veracity of that knowledge and identifies several flawed underlying assumptions. To address these flaws, we introduce sAwMIL (Sparse-Aware Multiple-Instance Learning), a multiclass probing framework that combines multiple-instance learning with conformal prediction. sAwMIL leverages internal activations of LLMs to classify statements as true, false, or neither. We evaluate sAwMIL across 16 open-source LLMs, including default and chat-based variants, on three new curated datasets. Our results show that (1) common probing methods fail to provide a reliable and transferable veracity direction and, in some settings, perform worse than zero-shot prompting; (2) truth and falsehood are not encoded symmetrically; and (3) LLMs encode a third type of signal that is distinct from both true and false.