Measuring the metacognition of AI

📄 arXiv: 2603.29693v1 📥 PDF

作者: Richard Servajean, Philippe Servajean

分类: cs.AI

发布日期: 2026-03-31

备注: 18 pages, 5 figures, 2 tables


💡 一句话要点

提出使用 meta-d' 框架和信号检测理论评估AI的元认知能力,提升AI决策可靠性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 元认知 人工智能 决策 风险评估 信号检测理论 大型语言模型 meta-d'框架

📋 核心要点

  1. 现有AI系统在决策过程中越来越多地被使用,但其元认知能力(评估和调节自身决策的能力)的评估方法尚不完善。
  2. 论文提出采用 meta-d' 框架和信号检测理论(SDT)来评估AI的元认知敏感性和风险感知能力,从而提升决策的可靠性。
  3. 通过对GPT-5、DeepSeek-V3.2-Exp和Mistral-Medium-2508等大型语言模型进行实验,验证了所提出框架的有效性和实用性。

📝 摘要(中文)

一个稳健的决策过程必须考虑到不确定性,尤其是在选择涉及固有风险时。由于人工智能(AI)系统越来越多地集成到决策工作流程中,管理不确定性越来越依赖于这些系统的元认知能力;即,它们评估自身决策的可靠性并对其进行调节的能力。因此,至关重要的是采用稳健的方法来衡量AI的元认知能力。本文主要是一个方法论贡献,主张采用 meta-d' 框架或其无模型替代方案,作为评估AI元认知敏感性的黄金标准——即生成能够区分正确和错误响应的置信度评级的能力。此外,我们建议利用信号检测理论(SDT)来衡量AI基于不确定性和风险自发调节其决策的能力。为了证明这些心理物理框架的实际效用,我们对三个大型语言模型(LLM)——GPT-5、DeepSeek-V3.2-Exp和Mistral-Medium-2508进行了两系列实验。在第一个实验中,LLM执行主要判断,然后进行置信度评级。在第二个实验中,LLM仅执行主要判断,同时我们操纵与任一响应相关的风险。一方面,应用meta-d'框架使我们能够沿三个轴进行比较:将LLM与最优状态进行比较,在给定任务上比较不同的LLM,以及比较同一LLM在不同任务中的表现。另一方面,SDT使我们能够评估LLM在风险较高时是否变得更加保守。

🔬 方法详解

问题定义:论文旨在解决如何有效测量和评估人工智能系统的元认知能力的问题。现有方法缺乏统一的标准和框架,难以准确评估AI在不确定性和风险环境下的决策可靠性。特别是,缺乏对AI置信度评估和风险规避能力的量化方法。

核心思路:论文的核心思路是借鉴心理学中用于评估人类元认知能力的 meta-d' 框架和信号检测理论(SDT),并将其应用于评估AI系统。通过分析AI的置信度评级和在不同风险条件下的决策行为,来量化其元认知敏感性和风险感知能力。

技术框架:论文的技术框架包含两个主要部分:1) 使用 meta-d' 框架评估元认知敏感性:AI首先执行一个判断任务,然后给出置信度评级。meta-d' 框架用于分析置信度评级与实际判断结果之间的关系,从而评估AI区分正确和错误判断的能力。2) 使用信号检测理论(SDT)评估风险感知和调节能力:通过操纵与不同决策相关的风险,观察AI的决策行为变化。SDT用于量化AI在不同风险水平下的决策偏好,从而评估其风险规避能力。

关键创新:论文的关键创新在于将心理学中的元认知评估方法引入到AI领域,并提出了一个统一的框架来评估AI的元认知能力。该框架不仅可以评估AI的置信度评估能力,还可以评估其在风险环境下的决策行为,从而更全面地了解AI的决策可靠性。

关键设计:在实验设计中,论文操纵了与不同决策相关的风险,例如,将错误判断的代价设置为高于正确判断的收益。通过观察AI在不同风险水平下的决策行为变化,来评估其风险规避能力。此外,论文还使用了不同的任务类型和数据集,以验证所提出框架的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,meta-d' 框架可以有效地评估不同LLM的元认知敏感性,并可以比较它们在不同任务上的表现。此外,SDT分析表明,LLM在风险较高时会变得更加保守,表明它们具有一定的风险感知和调节能力。例如,在某些任务中,GPT-5的元认知敏感性接近最优水平。

🎯 应用场景

该研究成果可应用于各种需要AI进行决策的领域,例如自动驾驶、医疗诊断、金融风险评估等。通过评估和提升AI的元认知能力,可以提高AI决策的可靠性和安全性,降低潜在风险,并增强人与AI之间的信任。

📄 摘要(原文)

A robust decision-making process must take into account uncertainty, especially when the choice involves inherent risks. Because artificial Intelligence (AI) systems are increasingly integrated into decision-making workflows, managing uncertainty relies more and more on the metacognitive capabilities of these systems; i.e, their ability to assess the reliability of and regulate their own decisions. Hence, it is crucial to employ robust methods to measure the metacognitive abilities of AI. This paper is primarily a methodological contribution arguing for the adoption of the meta-d' framework, or its model-free alternatives, as the gold standard for assessing the metacognitive sensitivity of AIs--the ability to generate confidence ratings that distinguish correct from incorrect responses. Moreover, we propose to leverage signal detection theory (SDT) to measure the ability of AIs to spontaneously regulate their decisions based on uncertainty and risk. To demonstrate the practical utility of these psychophysical frameworks, we conduct two series of experiments on three large language models (LLMs)--GPT-5, DeepSeek-V3.2-Exp, and Mistral-Medium-2508. In the first experiments, LLMs performed a primary judgment followed by a confidence rating. In the second, LLMs only performed the primary judgment, while we manipulated the risk associated with either response. On the one hand, applying the meta-d' framework allows us to conduct comparisons along three axes: comparing an LLM to optimality, comparing different LLMs on a given task, and comparing the same LLM across different tasks. On the other hand, SDT allows us to assess whether LLMs become more conservative when risks are high.