Self-Reported Confidence of Large Language Models in Gastroenterology: Analysis of Commercial, Open-Source, and Quantized Models

📄 arXiv: 2503.18562v1 📥 PDF

作者: Nariman Naderi, Seyed Amir Ahmad Safavi-Naini, Thomas Savage, Zahra Atf, Peter Lewis, Girish Nadkarni, Ali Soroush

分类: cs.CL, cs.AI, cs.HC, cs.LG

发布日期: 2025-03-24

备注: 35 pages, 5 figures, 1 table, 7 supplementary figures


💡 一句话要点

评估大型语言模型在胃肠病学问题上的自信度与准确性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 置信度估计 人工智能 胃肠病学 不确定性量化 医疗应用 过度自信

📋 核心要点

  1. 现有大型语言模型在医疗领域的应用面临不确定性量化难题,模型过度自信可能导致误诊。
  2. 研究通过胃肠病学问题评估多个LLM的自我报告置信度,分析其置信度与实际准确率之间的关系。
  3. 实验结果表明,即使是最新模型也普遍存在过度自信问题,这限制了其在医疗领域的可靠应用。

📝 摘要(中文)

本研究评估了多个大型语言模型(GPT、Claude、Llama、Phi、Mistral、Gemini、Gemma 和 Qwen)在300道胃肠病学委员会风格问题上的自我报告的回答确定性。性能最高的模型(GPT-o1 preview、GPT-4o 和 Claude-3.5-Sonnet)实现了0.15-0.2的Brier分数和0.6的AUROC。尽管较新的模型表现出改进的性能,但所有模型都表现出一致的过度自信倾向。不确定性估计对大型语言模型在医疗保健中的安全使用提出了重大挑战。

🔬 方法详解

问题定义:论文旨在评估大型语言模型在回答胃肠病学相关问题时的自信程度,并分析这种自信程度与模型实际准确率之间的关系。现有方法缺乏对LLM在医疗领域应用中不确定性的有效量化,模型过度自信可能导致潜在的医疗风险。

核心思路:论文的核心思路是利用胃肠病学委员会风格的问题作为测试集,通过分析LLM自我报告的置信度(response certainty)与实际回答正确率之间的差异,来评估模型的不确定性量化能力。研究关注模型是否能够准确地评估自身答案的可靠性。

技术框架:研究采用包含300道胃肠病学委员会风格问题的测试集。针对每个问题,要求LLM给出答案,并同时报告其对答案的置信度。然后,将模型的置信度与实际答案的正确性进行比较,计算Brier分数和AUROC等指标来评估模型的校准程度。研究对比了多个商业、开源和量化的大型语言模型,包括GPT系列、Claude系列、Llama系列、Phi、Mistral、Gemini、Gemma和Qwen。

关键创新:该研究的关键创新在于系统性地评估了多个主流LLM在特定医疗领域(胃肠病学)的置信度校准情况。通过量化模型自我报告的置信度与实际准确率之间的差异,揭示了LLM在医疗应用中普遍存在的过度自信问题。

关键设计:研究使用了Brier分数和AUROC作为评估模型置信度校准程度的关键指标。Brier分数衡量预测概率的准确性,越低越好。AUROC衡量模型区分正确答案和错误答案的能力。研究没有涉及特定的网络结构或损失函数的设计,而是侧重于对现有模型的评估。

📊 实验亮点

实验结果表明,即使是性能最高的模型(GPT-o1 preview、GPT-4o 和 Claude-3.5-Sonnet)也存在过度自信的问题,Brier分数仅为0.15-0.2,AUROC为0.6。这表明LLM在胃肠病学问题上的置信度与实际准确率之间存在显著偏差,限制了其在临床实践中的可靠性。

🎯 应用场景

该研究结果对大型语言模型在医疗领域的应用具有重要意义。通过揭示模型过度自信的问题,提醒医疗从业者在使用LLM辅助诊断时需要谨慎,并强调了开发更可靠的不确定性量化方法的重要性。未来的研究可以集中在改进LLM的置信度校准,从而提高其在医疗决策中的安全性。

📄 摘要(原文)

This study evaluated self-reported response certainty across several large language models (GPT, Claude, Llama, Phi, Mistral, Gemini, Gemma, and Qwen) using 300 gastroenterology board-style questions. The highest-performing models (GPT-o1 preview, GPT-4o, and Claude-3.5-Sonnet) achieved Brier scores of 0.15-0.2 and AUROC of 0.6. Although newer models demonstrated improved performance, all exhibited a consistent tendency towards overconfidence. Uncertainty estimation presents a significant challenge to the safe use of LLMs in healthcare. Keywords: Large Language Models; Confidence Elicitation; Artificial Intelligence; Gastroenterology; Uncertainty Quantification