No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes

📄 arXiv: 2509.10625v1 📥 PDF

作者: Iván Vicente Moreno Cencerrado, Arnau Padrés Masdemont, Anton Gonzalvez Hawthorne, David Demitri Africa, Lorenzo Pacchiardi

分类: cs.CL, cs.AI

发布日期: 2025-09-12


💡 一句话要点

仅凭问题预测LLM答案准确性:线性探针揭示模型内部置信度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 答案准确性预测 线性探针 置信度评估 模型内部机制

📋 核心要点

  1. 现有方法难以在不生成答案的情况下预测LLM的回答准确性,阻碍了对模型内部置信度评估机制的理解。
  2. 该论文提出一种基于问题本身的线性探针方法,通过分析模型在问题输入后的激活状态来预测答案的正确性。
  3. 实验表明,该方法在多个数据集上有效预测LLM的回答准确性,且优于黑盒基线,揭示了模型内部自我评估机制。

📝 摘要(中文)

本文研究大型语言模型(LLM)是否能预判自身答案的正确性。研究人员在模型读取问题后、生成任何token前提取激活值,并训练线性探针来预测模型即将给出的答案是否正确。实验结果表明,在70亿到700亿参数的三个开源模型家族中,基于通用琐事问题训练的“预先正确性方向”的投影,能够预测模型在同分布和各种分布外知识数据集上的成功率,优于黑盒基线和口头表达的预测置信度。预测能力在中间层达到饱和,表明自我评估出现在计算过程中。值得注意的是,在需要数学推理的问题上,泛化能力会减弱。此外,对于回答“我不知道”的模型,这种回答与探针分数密切相关,表明同一方向也捕捉到了置信度。通过补充先前使用探针和稀疏自编码器获得的关于真实性和其他行为的结果,本文为阐明LLM内部机制做出了重要贡献。

🔬 方法详解

问题定义:论文旨在解决如何仅基于问题本身,在LLM生成答案之前预测其答案的准确性。现有方法通常依赖于黑盒评估或需要模型生成答案后才能进行评估,无法深入了解LLM内部的置信度评估机制。此外,现有方法在分布外数据集上的泛化能力有限,尤其是在需要复杂推理的任务上表现不佳。

核心思路:论文的核心思路是,LLM在处理问题时,其内部激活状态包含了关于答案正确性的信息。通过训练线性探针来解码这些激活状态,可以预测LLM即将给出的答案是否正确。这种方法无需生成答案,可以直接评估LLM的置信度。

技术框架:整体框架包括以下步骤:1) 给定一个问题,将其输入到LLM中;2) 在LLM处理问题后、生成答案之前,提取特定层的激活向量;3) 使用提取的激活向量训练一个线性探针,目标是预测LLM对该问题的答案是否正确;4) 使用训练好的线性探针评估LLM在不同数据集上的回答准确性。

关键创新:最重要的技术创新点在于,它证明了仅凭问题本身,就可以预测LLM答案的准确性。这表明LLM在处理问题时,已经形成了对答案置信度的内部评估。与现有方法相比,该方法无需生成答案,可以直接评估LLM的置信度,并且具有更好的泛化能力。

关键设计:关键设计包括:1) 选择合适的LLM层提取激活向量。实验表明,中间层的激活向量包含的信息量最大;2) 使用线性探针进行预测,线性探针简单高效,易于训练和解释;3) 使用通用琐事问题训练探针,以提高其泛化能力;4) 使用不同的数据集评估探针的性能,包括同分布和分布外数据集。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于通用琐事问题训练的线性探针,能够有效预测LLM在同分布和各种分布外知识数据集上的成功率,优于黑盒基线和口头表达的预测置信度。预测能力在中间层达到饱和,表明自我评估出现在计算过程中。在回答“我不知道”时,探针分数与回答行为高度相关。

🎯 应用场景

该研究成果可应用于LLM的可靠性评估、错误检测和置信度校准。通过预测LLM的回答准确性,可以提前识别潜在的错误答案,并采取相应的纠正措施。此外,该方法还可以用于指导LLM的训练,提高其在复杂任务上的性能。

📄 摘要(原文)

Do large language models (LLMs) anticipate when they will answer correctly? To study this, we extract activations after a question is read but before any tokens are generated, and train linear probes to predict whether the model's forthcoming answer will be correct. Across three open-source model families ranging from 7 to 70 billion parameters, projections on this "in-advance correctness direction" trained on generic trivia questions predict success in distribution and on diverse out-of-distribution knowledge datasets, outperforming black-box baselines and verbalised predicted confidence. Predictive power saturates in intermediate layers, suggesting that self-assessment emerges mid-computation. Notably, generalisation falters on questions requiring mathematical reasoning. Moreover, for models responding "I don't know", doing so strongly correlates with the probe score, indicating that the same direction also captures confidence. By complementing previous results on truthfulness and other behaviours obtained with probes and sparse auto-encoders, our work contributes essential findings to elucidate LLM internals.