LLMs as Signal Detectors: Sensitivity, Bias, and the Temperature-Criterion Analogy

📄 arXiv: 2603.14893v1 📥 PDF

作者: Jon-Paul Cacioli

分类: cs.CL, cs.AI

发布日期: 2026-03-16

备注: 15 pages, 8 figures, 2 tables


💡 一句话要点

利用信号检测理论分析LLM:揭示温度参数与决策标准的类比及局限性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 信号检测理论 模型校准 敏感性分析 偏差分析

📋 核心要点

  1. 现有LLM校准评估方法(如ECE)无法有效区分模型的区分能力和置信度偏差。
  2. 论文采用信号检测理论(SDT)框架,将LLM视为信号检测器,解耦敏感性和偏差。
  3. 实验表明,温度参数对LLM的影响与人类决策不同,同时影响敏感性和决策标准。

📝 摘要(中文)

本文利用信号检测理论(SDT)评估大型语言模型(LLM)的校准性能,传统校准指标如预期校准误差(ECE)混淆了模型的区分能力(敏感性)和置信度倾向(偏差)。SDT能够解耦这些成分。虽然AUROC等SDT指标已被使用,但完整的参数化框架,包括不等方差模型拟合、标准估计和z-ROC分析,尚未应用于LLM。本研究将三个LLM视为执行事实辨别任务的观察者,进行了168,000次试验,并测试了温度参数是否类似于人类心理物理学中通过收益操纵产生的标准转移。关键是,这种类比可能失效,因为温度不仅改变了置信度,还改变了生成的答案本身。结果证实了这种失效,温度同时提高了敏感性(AUC)和转移了标准。所有模型都表现出不等方差证据分布(z-ROC斜率0.52-0.84),其中指令模型(0.52-0.63)比基础模型(0.77-0.87)或人类识别记忆(~0.80)表现出更极端的非对称性。SDT分解表明,仅凭校准指标无法区分敏感性-偏差空间中位置不同的模型,表明完整的参数化框架提供了现有指标无法提供的诊断信息。

🔬 方法详解

问题定义:现有的大型语言模型校准评估方法,如预期校准误差(ECE),存在一个关键的局限性:它们无法有效地区分模型区分正确答案和错误答案的能力(敏感性),以及模型倾向于给出自信或谨慎回答的程度(偏差)。这意味着,即使两个模型的校准误差相同,它们的实际性能也可能大相径庭,一个可能更擅长区分正确答案,而另一个可能只是更保守。

核心思路:论文的核心思路是将大型语言模型视为信号检测器,并应用信号检测理论(SDT)来分析其行为。SDT是一种广泛应用于心理学和神经科学的理论框架,用于研究决策过程中的敏感性和偏差。通过将LLM视为信号检测器,研究人员可以解耦模型的区分能力和置信度倾向,从而更全面地了解其校准性能。

技术框架:该研究的技术框架主要包括以下几个步骤: 1. 实验设计:设计一个事实辨别任务,其中LLM需要区分正确和错误的陈述。 2. 数据收集:使用三个不同的LLM(包括基础模型和指令模型)进行168,000次试验,记录模型的回答和置信度。 3. SDT分析:应用SDT框架来分析数据,包括不等方差模型拟合、标准估计和z-ROC分析。 4. 温度参数分析:研究温度参数对模型敏感性和偏差的影响。

关键创新:该研究的关键创新在于将完整的参数化信号检测理论框架应用于大型语言模型,并揭示了温度参数对模型行为的复杂影响。以往的研究主要集中在使用AUROC等SDT指标,而忽略了不等方差模型拟合和z-ROC分析等更高级的技术。此外,该研究还发现,温度参数不仅影响模型的置信度,还会影响其区分能力,这与人类决策中的情况不同。

关键设计:该研究的关键设计包括: * 不等方差模型拟合:使用不等方差模型来拟合数据,以考虑正确和错误答案的证据分布可能不同的情况。 * z-ROC分析:使用z-ROC分析来评估模型的敏感性和偏差。 * 温度参数控制:通过改变温度参数来研究其对模型行为的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,温度参数同时影响LLM的敏感性和决策标准,与人类决策行为不同。指令模型表现出比基础模型更极端的非对称证据分布(z-ROC斜率0.52-0.63 vs 0.77-0.87)。SDT分解揭示了仅凭校准指标无法区分的模型差异,证明了完整参数化框架的诊断价值。

🎯 应用场景

该研究成果可应用于提升LLM的可靠性和可信度,尤其是在需要高精度和低偏差的场景,如医疗诊断、金融分析和法律咨询。通过更准确地评估和校准LLM,可以减少错误信息的传播,并提高决策的质量。未来的研究可以探索更有效的校准方法,并将其应用于更广泛的LLM应用。

📄 摘要(原文)

Large language models (LLMs) are evaluated for calibration using metrics such as Expected Calibration Error that conflate two distinct components: the model's ability to discriminate correct from incorrect answers (sensitivity) and its tendency toward confident or cautious responding (bias). Signal Detection Theory (SDT) decomposes these components. While SDT-derived metrics such as AUROC are increasingly used, the full parametric framework - unequal-variance model fitting, criterion estimation, z-ROC analysis - has not been applied to LLMs as signal detectors. In this pre-registered study, we treat three LLMs as observers performing factual discrimination across 168,000 trials and test whether temperature functions as a criterion shift analogous to payoff manipulations in human psychophysics. Critically, this analogy may break down because temperature changes the generated answer itself, not only the confidence assigned to it. Our results confirm the breakdown with temperature simultaneously increasing sensitivity (AUC) and shifting criterion. All models exhibited unequal-variance evidence distributions (z-ROC slopes 0.52-0.84), with instruct models showing more extreme asymmetry (0.52-0.63) than the base model (0.77-0.87) or human recognition memory (~0.80). The SDT decomposition revealed that models occupying distinct positions in sensitivity-bias space could not be distinguished by calibration metrics alone, demonstrating that the full parametric framework provides diagnostic information unavailable from existing metrics.