A Multi-faceted Analysis of Cognitive Abilities: Evaluating Prompt Methods with Large Language Models on the CONSORT Checklist

📄 arXiv: 2510.19139v2 📥 PDF

作者: Sohyeon Jeon, Hyung-Chul Lee

分类: cs.AI, cs.CL

发布日期: 2025-10-22 (更新: 2025-10-26)


💡 一句话要点

评估大型语言模型在CONSORT清单上的认知能力,揭示其校准误差和过度自信问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 临床试验报告 CONSORT清单 校准误差 元认知 医疗人工智能 提示工程 不确定性量化

📋 核心要点

  1. 现有大型语言模型在医疗领域的应用面临评估其临床试验报告评估能力不足的挑战。
  2. 该研究采用行为和元认知分析,对比通用和领域专用LLM在不同提示策略下的表现。
  3. 实验结果揭示了LLM在临床角色扮演中存在显著的校准误差和过度自信问题。

📝 摘要(中文)

尽管大型语言模型(LLM)在医疗保健领域迅速扩展,但对其评估临床试验报告是否符合CONSORT标准的能力进行稳健且可解释的评估仍然是一个开放的挑战。特别地,LLM推理的不确定性校准和元认知可靠性在医疗自动化中知之甚少且未被充分探索。本研究采用行为和元认知分析方法,使用经过专家验证的数据集,系统地比较了两个具有代表性的LLM——一个通用的和一个领域专用的——在三种提示策略下的表现。我们使用预期校准误差(ECE)和基线归一化的相对校准误差(RCE)来分析认知适应和校准误差,RCE能够进行可靠的跨模型比较。结果表明,两种模型都存在明显的校准误差和过度自信,尤其是在临床角色扮演条件下,校准误差持续高于临床相关阈值。这些发现强调需要改进校准、透明的代码和战略性的提示工程,以开发可靠且可解释的医疗人工智能。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在评估临床试验报告是否符合CONSORT标准时存在的校准误差和元认知可靠性问题。现有方法缺乏对LLM不确定性校准的充分理解,导致其在医疗自动化中的应用存在风险。现有方法难以可靠地评估LLM在医疗领域的推理能力,尤其是在模拟临床场景时。

核心思路:论文的核心思路是通过行为和元认知分析方法,系统地评估LLM在不同提示策略下的表现,并量化其校准误差。通过比较通用LLM和领域专用LLM,研究旨在揭示LLM在医疗领域应用中的优势和局限性。通过引入基线归一化的相对校准误差(RCE),实现跨模型的可靠比较。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据集构建:使用经过专家验证的CONSORT数据集。2) 模型选择:选择通用LLM和领域专用LLM进行比较。3) 提示策略设计:设计三种不同的提示策略。4) 实验评估:使用ECE和RCE等指标评估模型的校准误差。5) 结果分析:分析实验结果,揭示LLM的优势和局限性。

关键创新:论文的关键创新在于:1) 采用行为和元认知分析方法评估LLM在医疗领域的推理能力。2) 引入基线归一化的相对校准误差(RCE),实现跨模型的可靠比较。3) 系统地比较了通用LLM和领域专用LLM在不同提示策略下的表现。与现有方法相比,该研究更关注LLM的校准误差和元认知可靠性,并提供了更细粒度的评估结果。

关键设计:论文的关键设计包括:1) 使用专家验证的CONSORT数据集,确保评估的可靠性。2) 选择具有代表性的通用LLM和领域专用LLM,以进行全面的比较。3) 设计三种不同的提示策略,以模拟不同的临床场景。4) 使用ECE和RCE等指标,量化模型的校准误差。具体的参数设置和网络结构取决于所使用的LLM,论文中未详细说明。

📊 实验亮点

实验结果表明,两种LLM都存在显著的校准误差和过度自信问题,尤其是在临床角色扮演条件下。校准误差持续高于临床相关阈值,表明LLM在医疗领域的应用仍需改进。基线归一化的相对校准误差(RCE)能够进行可靠的跨模型比较,为评估LLM的校准误差提供了一种新的方法。

🎯 应用场景

该研究成果可应用于医疗人工智能的开发和评估,帮助改进LLM的校准和可靠性,提高其在临床决策支持、医学文本分析等领域的应用效果。研究结果有助于开发更安全、更可靠的医疗AI系统,并为医疗从业者提供更准确的辅助工具。未来,该研究可扩展到其他医疗标准和指南的评估,推动医疗AI的标准化和规范化。

📄 摘要(原文)

Despite the rapid expansion of Large Language Models (LLMs) in healthcare, robust and explainable evaluation of their ability to assess clinical trial reporting according to CONSORT standards remains an open challenge. In particular, uncertainty calibration and metacognitive reliability of LLM reasoning are poorly understood and underexplored in medical automation. This study applies a behavioral and metacognitive analytic approach using an expert-validated dataset, systematically comparing two representative LLMs - one general and one domain-specialized - across three prompt strategies. We analyze both cognitive adaptation and calibration error using metrics: Expected Calibration Error (ECE) and a baseline-normalized Relative Calibration Error (RCE) that enables reliable cross-model comparison. Our results reveal pronounced miscalibration and overconfidence in both models, especially under clinical role-playing conditions, with calibration error persisting above clinically relevant thresholds. These findings underscore the need for improved calibration, transparent code, and strategic prompt engineering to develop reliable and explainable medical AI.