Prompt engineering does not universally improve Large Language Model performance across clinical decision-making tasks
作者: Mengdi Chai, Ali R. Zomorrodi
分类: cs.CL
发布日期: 2025-12-28
💡 一句话要点
提示工程在临床决策任务中对大语言模型性能的提升并非普适性的
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 临床决策支持 提示工程 少样本学习 医疗人工智能
📋 核心要点
- 现有大语言模型在临床决策支持中的实际应用潜力尚未充分挖掘,存在任务适应性和提示工程有效性的挑战。
- 研究采用MedPrompt框架,结合有针对性和随机的动态少样本学习,评估提示工程对LLM临床决策性能的影响。
- 实验结果表明,提示工程的效果依赖于模型和任务,且有针对性的少样本提示并不总是优于随机选择。
📝 摘要(中文)
本研究评估了三个先进的大语言模型(LLMs)——ChatGPT-4o、Gemini 1.5 Pro和LIama 3.3 70B——在典型患者就诊的整个临床推理工作流程中,对临床决策支持的性能。使用36个案例研究,我们首先评估了LLM在两种温度设置(默认与零)下,五个关键顺序临床决策任务的开箱即用性能:鉴别诊断、必要的即时步骤、相关的诊断测试、最终诊断和治疗建议。所有模型在不同任务中表现出高度的差异性,在最终诊断中达到接近完美的准确率,在相关诊断测试中表现不佳,在其余任务中表现中等。此外,ChatGPT在零温度下表现更好,而LIama在默认温度下表现更强。接下来,我们评估了提示工程是否可以通过应用MedPrompt框架的变体,结合有针对性和随机的动态少样本学习来提高LLM的性能。结果表明,提示工程并非万能的解决方案。虽然它显著提高了基线准确率最低的任务(相关诊断测试)的性能,但对其他任务却适得其反。另一个关键发现是,有针对性的动态少样本提示并没有始终优于随机选择,这表明紧密匹配的示例的假定优势可能被更广泛的上下文多样性的丧失所抵消。这些发现表明,提示工程的影响高度依赖于模型和任务,突出了针对医疗保健领域集成LLM,需要量身定制的、上下文感知的策略。
🔬 方法详解
问题定义:论文旨在解决大语言模型(LLM)在临床决策支持任务中的性能提升问题。现有方法,特别是提示工程,被认为可以提高LLM的性能,但其有效性在不同任务和模型之间存在差异,缺乏普适性。此外,如何选择合适的少样本示例以优化LLM的性能也是一个挑战。
核心思路:论文的核心思路是通过系统地评估不同提示工程策略(包括有针对性和随机的动态少样本学习)对LLM在临床决策任务中的性能影响,来揭示提示工程的局限性和任务依赖性。通过比较不同模型的表现,探索更有效的LLM集成到医疗保健领域的方法。
技术框架:研究使用36个临床案例,评估了三个LLM(ChatGPT-4o、Gemini 1.5 Pro和LIama 3.3 70B)在五个关键临床决策任务中的表现:鉴别诊断、必要的即时步骤、相关的诊断测试、最终诊断和治疗建议。研究采用了MedPrompt框架的变体,结合了动态少样本学习,并比较了有针对性和随机选择示例的效果。
关键创新:论文的关键创新在于揭示了提示工程在临床决策任务中并非万能的解决方案,其效果高度依赖于模型和任务。此外,研究发现有针对性的动态少样本提示并不总是优于随机选择,这挑战了以往认为紧密匹配的示例能够显著提高LLM性能的观点。
关键设计:研究采用了两种温度设置(默认与零)来评估LLM的性能。动态少样本学习涉及从案例库中选择少量示例作为提示,并比较了有针对性选择(选择与当前案例相似的示例)和随机选择的效果。研究没有明确提及损失函数或网络结构,因为重点在于评估现有LLM的性能和提示工程策略的效果。
📊 实验亮点
实验结果表明,提示工程对LLM在临床决策任务中的性能提升并非普适性的。例如,提示工程显著提高了相关诊断测试的性能,但对其他任务却适得其反。此外,有针对性的动态少样本提示并没有始终优于随机选择。ChatGPT在零温度下表现更好,而LIama在默认温度下表现更强。
🎯 应用场景
该研究成果可应用于医疗决策支持系统,帮助医生进行诊断、制定治疗方案。通过了解提示工程的局限性,可以开发更有效的LLM集成策略,提高医疗决策的准确性和效率。未来的研究可以探索更智能的提示选择方法,以适应不同的临床场景和患者需求。
📄 摘要(原文)
Large Language Models (LLMs) have demonstrated promise in medical knowledge assessments, yet their practical utility in real-world clinical decision-making remains underexplored. In this study, we evaluated the performance of three state-of-the-art LLMs-ChatGPT-4o, Gemini 1.5 Pro, and LIama 3.3 70B-in clinical decision support across the entire clinical reasoning workflow of a typical patient encounter. Using 36 case studies, we first assessed LLM's out-of-the-box performance across five key sequential clinical decision-making tasks under two temperature settings (default vs. zero): differential diagnosis, essential immediate steps, relevant diagnostic testing, final diagnosis, and treatment recommendation. All models showed high variability by task, achieving near-perfect accuracy in final diagnosis, poor performance in relevant diagnostic testing, and moderate performance in remaining tasks. Furthermore, ChatGPT performed better under the zero temperature, whereas LIama showed stronger performance under the default temperature. Next, we assessed whether prompt engineering could enhance LLM performance by applying variations of the MedPrompt framework, incorporating targeted and random dynamic few-shot learning. The results demonstrate that prompt engineering is not a one-size-fit-all solution. While it significantly improved the performance on the task with lowest baseline accuracy (relevant diagnostic testing), it was counterproductive for others. Another key finding was that the targeted dynamic few-shot prompting did not consistently outperform random selection, indicating that the presumed benefits of closely matched examples may be counterbalanced by loss of broader contextual diversity. These findings suggest that the impact of prompt engineering is highly model and task-dependent, highlighting the need for tailored, context-aware strategies for integrating LLMs into healthcare.