When Large Language Models Fail in Healthcare: Evaluating Sensitivity to Prompt Variations
作者: Mahdi Alkaeed
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-06-05
备注: 12 pages
💡 一句话要点
评估大型语言模型在医疗中的敏感性以应对安全风险
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 医疗应用 敏感性分析 对抗性提示 临床推理 模型鲁棒性 安全风险
📋 核心要点
- 现有的医疗领域大型语言模型对提示的细微变化极为敏感,导致其在临床应用中的可靠性受到质疑。
- 本研究通过对通用和医学特定LLMs进行系统的敏感性分析,探讨其在不同类型扰动下的表现。
- 实验结果表明,医学LLMs在面对对抗性提示时可能产生危险的临床建议,显示出其在高风险环境中的不可靠性。
📝 摘要(中文)
大型语言模型(LLMs)在医疗领域的应用日益广泛,涉及临床问答、诊断支持和报告总结等任务。然而,这些模型对细微的提示扰动表现出高度敏感性,给安全关键的临床应用带来了严重风险。本研究通过系统的敏感性分析,评估了通用和医学特定LLMs的鲁棒性,发现即使是轻微的措辞变化也可能改变临床建议,且针对性的对抗性提示可能导致有害输出。在医疗等高风险环境中,这种不可预测性是不可接受的。模型在简单的词汇替换或改述下表现出一定的韧性,但在句法重排或误导性上下文提示下则常常失效。
🔬 方法详解
问题定义:本论文旨在解决大型语言模型在医疗应用中对提示变化的敏感性问题,现有模型在细微措辞变化下可能导致不一致和不可靠的临床建议。
核心思路:通过系统的敏感性分析,评估通用和医学特定LLMs在不同类型扰动下的鲁棒性,以识别其在临床推理任务中的脆弱性。
技术框架:研究使用MedMCQA基准进行评估,分类扰动为自然和对抗性类型,分析其对模型一致性、准确性和可靠性的影响。
关键创新:本研究揭示了医学LLMs在面对轻微措辞变化时的脆弱性,尤其是在高风险医疗环境中,强调了对抗性提示可能导致的危险输出。
关键设计:实验中采用了多种提示扰动策略,评估模型在不同情况下的表现,特别关注句法重排和误导性上下文对模型输出的影响。
🖼️ 关键图片
📊 实验亮点
实验结果显示,医学特定LLMs在面对对抗性提示时,可能产生错误的临床建议,如错误的药物剂量推荐或遗漏重要发现。模型在简单的词汇替换下表现出一定的韧性,但在句法重排时则显著失效,显示出其在高风险环境中的不可靠性。
🎯 应用场景
该研究的潜在应用领域包括医疗诊断支持系统、临床决策辅助工具和医疗报告自动生成等。通过识别和缓解大型语言模型的敏感性问题,可以提高其在安全关键环境中的可靠性,确保临床医生能够信任模型输出,从而改善患者护理质量。
📄 摘要(原文)
Large Language Models (LLMs) are increasingly used in healthcare for tasks such as clinical question answering, diagnosis support, and report summarization. Despite their promise, these models remain highly sensitive to subtle prompt perturbations, both lexical and syntactic, posing serious risks in safety-critical clinical applications. In this study, we conduct a systematic sensitivity analysis to evaluate the robustness of both general-purpose (e.g., GPT-3.5, Llama3) and medical-specific LLMs (e.g., ClinicalBERT, BioLlama3, BioBERT) using the MedMCQA benchmark. We categorize perturbations into natural and adversarial types and examine their effect on model consistency, accuracy, and reliability in clinical reasoning tasks. Our findings reveal that medical LLMs are not intrinsically safe. Even minor variations in phrasing can alter clinical advice, and targeted adversarial prompts can provoke harmful outputs. In high-stakes settings like healthcare, such unpredictability is unacceptable-models that change diagnoses due to reworded inputs or hallucinate medications when slightly rephrased cannot be reliably trusted by clinicians. While models tend to show resilience to simple lexical substitutions or paraphrasing, they often break down under syntactic reordering or misleading contextual cues. This fragility is evident across both general-purpose and domain-specific LLMs. Notably, adversarial manipulations can lead to clinically dangerous outputs, such as recommending incorrect dosages or omitting critical findings.