Do LLMs Know What They Know? Measuring Metacognitive Efficiency with Signal Detection Theory

作者: Jon-Paul Cacioli

分类: cs.CL, cs.AI

发布日期: 2026-03-26

备注: 12 pages, 3 figures, 7 tables. Pre-registered; code and data at https://anonymous.4open.science/r/sdt_calibration

💡 一句话要点

利用信号检测理论评估LLM的元认知效率，揭示模型“知其不知”的能力差异

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 大语言模型 元认知 信号检测理论 置信度评估 模型校准 人机协作 Type-2 SDT meta-d'

📋 核心要点

现有LLM置信度评估方法（如ECE）无法区分模型知识量和元认知能力，导致评估结果不准确。
论文提出基于Type-2信号检测理论的评估框架，使用meta-d'和M-ratio来解耦Type-1和Type-2敏感性。
实验表明，即使Type-1敏感性相似，不同LLM的元认知效率也存在显著差异，且具有领域特异性。

📝 摘要（中文）

对LLM置信度的标准评估依赖于校准指标（ECE、Brier分数），这些指标混淆了两种不同的能力：模型知道多少（Type-1敏感性）和模型有多好地知道它知道什么（Type-2元认知敏感性）。我们引入了一个基于Type-2信号检测理论的评估框架，该框架使用meta-d'和元认知效率比率M-ratio来分解这些能力。应用于四个LLM（Llama-3-8B-Instruct、Mistral-7B-Instruct-v0.3、Llama-3-8B-Base、Gemma-2-9B-Instruct）的224,000个事实性QA试验中，我们发现：（1）即使Type-1敏感性相似，不同模型的元认知效率也存在显著差异——Mistral实现了最高的d'，但M-ratio最低；（2）元认知效率是领域特定的，不同的模型显示出不同的最弱领域，这在聚合指标中是不可见的；（3）温度操纵改变了Type-2标准，而meta-d'对于四个模型中的两个保持稳定，将置信度策略与元认知能力分离；（4）AUROC_2和M-ratio产生完全相反的模型排名，表明这些指标回答了根本不同的评估问题。meta-d'框架揭示了哪些模型“知道它们不知道什么”，哪些模型仅仅由于标准放置而显得校准良好——这种区别对模型选择、部署和人机协作具有直接影响。预先注册的分析；代码和数据公开可用。

🔬 方法详解

问题定义：现有的大语言模型（LLM）置信度评估方法，例如使用ECE（Expected Calibration Error）或Brier分数，存在一个根本性的问题：它们无法区分模型实际掌握的知识量（Type-1敏感性）和模型对自身知识的认知程度（Type-2元认知敏感性）。这意味着一个模型可能看起来校准良好，但实际上只是因为其置信度阈值设置得当，而并非真正“知道自己知道什么”或“知道自己不知道什么”。这种混淆使得我们难以准确评估LLM的可靠性，并可能导致在实际应用中做出错误的决策。

核心思路：本论文的核心思路是借鉴心理学中的信号检测理论（Signal Detection Theory, SDT），特别是Type-2 SDT，来更精细地评估LLM的元认知能力。Type-2 SDT可以将模型的判断能力分解为两个独立的维度：一是区分信号和噪声的能力（Type-1敏感性，对应于模型解决问题的能力），二是评估自身判断正确性的能力（Type-2敏感性，对应于模型的元认知能力）。通过这种分解，我们可以更清晰地了解模型是否真正“知道自己知道什么”。

技术框架：该评估框架主要包含以下几个步骤：1. 构建数据集：使用包含大量事实性问题的数据集，并要求LLM回答这些问题并给出置信度评分。2. 应用Type-2 SDT：将LLM的回答和置信度评分作为输入，利用Type-2 SDT计算meta-d'和M-ratio。meta-d'衡量的是模型在给定其Type-1敏感性的情况下，区分正确和错误回答的能力。M-ratio是meta-d'与d'（Type-1敏感性的度量）的比值，用于评估元认知效率。3. 分析结果：比较不同模型在不同领域上的meta-d'和M-ratio，以评估它们的元认知能力，并分析温度等因素对这些指标的影响。

关键创新：该论文最重要的技术创新在于将Type-2信号检测理论引入到LLM的评估中。与传统的校准指标相比，这种方法能够更准确地衡量LLM的元认知能力，区分模型是真正“知道自己知道什么”，还是仅仅因为置信度阈值设置得当而显得校准良好。此外，该框架还能够揭示不同模型在不同领域上的元认知能力差异，这对于模型选择和人机协作具有重要意义。

关键设计：关键的设计包括：1. 选择合适的Type-2 SDT指标：论文选择了meta-d'和M-ratio作为评估元认知能力的关键指标。meta-d'能够衡量模型在给定其Type-1敏感性的情况下，区分正确和错误回答的能力。M-ratio则能够评估元认知效率，即模型在多大程度上能够利用其知识来评估自身判断的正确性。2. 控制温度参数：通过调整LLM的温度参数，可以改变模型的置信度策略，从而研究置信度策略与元认知能力之间的关系。3. 领域特定评估：将评估分解到不同的知识领域，可以揭示模型在不同领域上的元认知能力差异。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使Type-1敏感性相似，不同LLM的元认知效率也存在显著差异。例如，Mistral模型虽然具有最高的d'（Type-1敏感性），但M-ratio（元认知效率）最低。此外，元认知效率具有领域特异性，不同模型在不同领域表现出不同的最弱领域。AUROC_2和M-ratio产生完全相反的模型排名，进一步验证了该框架的有效性。

🎯 应用场景

该研究成果可应用于LLM选型、部署和人机协作等多个领域。例如，在需要高可靠性的场景中，可以选择元认知效率更高的模型。在人机协作中，可以根据模型在特定领域的元认知能力，合理分配任务，提高协作效率。此外，该研究还有助于开发更智能、更可靠的LLM。

📄 摘要（原文）

Standard evaluation of LLM confidence relies on calibration metrics (ECE, Brier score) that conflate two distinct capacities: how much a model knows (Type-1 sensitivity) and how well it knows what it knows (Type-2 metacognitive sensitivity). We introduce an evaluation framework based on Type-2 Signal Detection Theory that decomposes these capacities using meta-d' and the metacognitive efficiency ratio M-ratio. Applied to four LLMs (Llama-3-8B-Instruct, Mistral-7B-Instruct-v0.3, Llama-3-8B-Base, Gemma-2-9B-Instruct) across 224,000 factual QA trials, we find: (1) metacognitive efficiency varies substantially across models even when Type-1 sensitivity is similar -- Mistral achieves the highest d' but the lowest M-ratio; (2) metacognitive efficiency is domain-specific, with different models showing different weakest domains, invisible to aggregate metrics; (3) temperature manipulation shifts Type-2 criterion while meta-d' remains stable for two of four models, dissociating confidence policy from metacognitive capacity; (4) AUROC_2 and M-ratio produce fully inverted model rankings, demonstrating these metrics answer fundamentally different evaluation questions. The meta-d' framework reveals which models "know what they don't know" versus which merely appear well-calibrated due to criterion placement -- a distinction with direct implications for model selection, deployment, and human-AI collaboration. Pre-registered analysis; code and data publicly available.

Do LLMs Know What They Know? Measuring Metacognitive Efficiency with Signal Detection Theory

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理