Evaluating Prompt Engineering Techniques for Accuracy and Confidence Elicitation in Medical LLMs

📄 arXiv: 2506.00072v1 📥 PDF

作者: Nariman Naderi, Zahra Atf, Peter R Lewis, Aref Mahjoub far, Seyed Amir Ahmad Safavi-Naini, Ali Soroush

分类: cs.CY, cs.AI, cs.CL, cs.LG

发布日期: 2025-05-29

备注: This paper was accepted for presentation at the 7th International Workshop on EXplainable, Trustworthy, and Responsible AI and Multi-Agent Systems (EXTRAAMAS 2025). Workshop website: https://extraamas.ehealth.hevs.ch/index.html


💡 一句话要点

评估Prompt工程技术在医学LLM中的准确性和置信度诱导效果

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Prompt工程 大型语言模型 医学问答 置信度校准 思维链 情感化Prompt 医疗AI 模型评估

📋 核心要点

  1. 现有医学LLM在准确性和置信度校准方面存在不足,影响其在临床决策中的可靠性。
  2. 通过探索不同Prompt工程技术,包括思维链、少样本、情感化等,优化LLM在医学问答中的表现。
  3. 实验表明,思维链Prompt虽提高准确率,但易导致过度自信,情感化Prompt则会进一步膨胀自信心。

📝 摘要(中文)

本文研究了Prompt工程技术如何影响应用于医学领域的大型语言模型(LLM)的准确性和置信度诱导。我们使用一个分层的波斯语医学委员会考试题数据集,涵盖多个专业,评估了五个LLM——GPT-4o、o3-mini、Llama-3.3-70b、Llama-3.1-8b和DeepSeek-v3——在156种配置下的表现。这些配置在温度设置(0.3、0.7、1.0)、Prompt风格(思维链、少样本、情感化、专家模仿)和置信度尺度(1-10、1-100)上有所不同。我们使用AUC-ROC、Brier分数和预期校准误差(ECE)来评估置信度与实际性能之间的一致性。思维链Prompt提高了准确性,但也导致了过度自信,突出了校准的必要性。情感化Prompt进一步放大了自信心,可能导致错误的决策。像Llama-3.1-8b这样的小型模型在所有指标上都表现不佳,而专有模型显示出更高的准确性,但仍然缺乏校准的置信度。这些结果表明,Prompt工程必须同时解决准确性和不确定性,才能在高度敏感的医疗任务中有效。

🔬 方法详解

问题定义:论文旨在解决医学领域大型语言模型(LLM)在进行问题回答时,准确性和置信度校准的问题。现有方法,如直接使用LLM进行预测,往往存在置信度与实际准确率不匹配的情况,即模型可能对错误的答案给出过高的置信度,或者对正确的答案给出过低的置信度。这种不匹配会严重影响LLM在医疗决策中的可靠性,因为医生需要知道模型预测的可靠程度才能做出正确的判断。

核心思路:论文的核心思路是通过Prompt工程来改善LLM的准确性和置信度校准。Prompt工程是指通过设计不同的Prompt(提示语)来引导LLM产生更准确、更可靠的答案。论文探索了多种Prompt风格,如思维链(Chain-of-Thought)、少样本(Few-Shot)、情感化(Emotional)和专家模仿(Expert Mimicry),以及不同的温度设置和置信度尺度,以寻找最佳的Prompt配置。这样设计的目的是希望通过不同的Prompt风格来影响LLM的推理过程和置信度评估,从而提高其在医学问答中的表现。

技术框架:论文的整体框架包括以下几个主要步骤:1) 构建医学问答数据集:使用波斯语医学委员会考试题数据集,涵盖多个医学专业。2) 选择LLM:选择了GPT-4o、o3-mini、Llama-3.3-70b、Llama-3.1-8b和DeepSeek-v3等多个LLM进行评估。3) Prompt工程:设计了156种不同的Prompt配置,包括不同的Prompt风格、温度设置和置信度尺度。4) 模型预测:使用不同的Prompt配置对LLM进行问题回答,并记录模型的预测结果和置信度。5) 性能评估:使用AUC-ROC、Brier分数和预期校准误差(ECE)等指标来评估模型的准确性和置信度校准。

关键创新:论文的关键创新在于系统性地评估了多种Prompt工程技术对医学LLM准确性和置信度校准的影响。与以往的研究相比,本文不仅关注了Prompt工程对准确率的提升,还特别关注了Prompt工程对置信度校准的影响。此外,本文还探索了情感化Prompt和专家模仿Prompt等新的Prompt风格,并分析了它们对LLM表现的影响。

关键设计:在Prompt工程方面,论文设计了多种Prompt风格,包括:1) 思维链Prompt:通过引导LLM逐步推理来提高准确率。2) 少样本Prompt:通过提供少量示例来帮助LLM理解问题。3) 情感化Prompt:通过使用情感化的语言来影响LLM的置信度评估。4) 专家模仿Prompt:通过让LLM模仿医学专家的风格来提高准确率。在性能评估方面,论文使用了AUC-ROC来评估模型的区分能力,使用Brier分数来评估模型的校准程度,使用ECE来评估模型的整体校准误差。

📊 实验亮点

实验结果表明,思维链Prompt可以提高LLM的准确性,但同时也可能导致过度自信。情感化Prompt会进一步放大自信心,增加决策风险。小型模型(如Llama-3.1-8b)在所有指标上表现均不佳,而专有模型虽然准确率较高,但置信度校准仍有待提高。GPT-4o 在准确率上表现最佳,但校准误差仍然存在。

🎯 应用场景

该研究成果可应用于开发更可靠的医学辅助诊断系统,帮助医生进行临床决策。通过优化Prompt工程,可以提高LLM在医学问答中的准确性和置信度,从而减少误诊和漏诊的风险。未来,该技术还可以扩展到其他高风险领域,如金融、法律等,提高AI系统的可靠性和可信度。

📄 摘要(原文)

This paper investigates how prompt engineering techniques impact both accuracy and confidence elicitation in Large Language Models (LLMs) applied to medical contexts. Using a stratified dataset of Persian board exam questions across multiple specialties, we evaluated five LLMs - GPT-4o, o3-mini, Llama-3.3-70b, Llama-3.1-8b, and DeepSeek-v3 - across 156 configurations. These configurations varied in temperature settings (0.3, 0.7, 1.0), prompt styles (Chain-of-Thought, Few-Shot, Emotional, Expert Mimicry), and confidence scales (1-10, 1-100). We used AUC-ROC, Brier Score, and Expected Calibration Error (ECE) to evaluate alignment between confidence and actual performance. Chain-of-Thought prompts improved accuracy but also led to overconfidence, highlighting the need for calibration. Emotional prompting further inflated confidence, risking poor decisions. Smaller models like Llama-3.1-8b underperformed across all metrics, while proprietary models showed higher accuracy but still lacked calibrated confidence. These results suggest prompt engineering must address both accuracy and uncertainty to be effective in high-stakes medical tasks.