Susceptibility of Large Language Models to User-Driven Factors in Medical Queries

📄 arXiv: 2503.22746v1 📥 PDF

作者: Kyung Ho Lim, Ujin Kang, Xiang Li, Jin Sung Kim, Young-Chul Jung, Sangjoon Park, Byung-Hoon Kim

分类: cs.CL, cs.AI, cs.CY

发布日期: 2025-03-26


💡 一句话要点

研究表明大型语言模型在医疗问询中易受用户因素影响,尤其对误导信息敏感

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 医疗问询 用户因素 误导信息 临床信息 诊断准确性 可靠性评估

📋 核心要点

  1. 现有大型语言模型在医疗领域的应用面临挑战,其诊断准确性易受用户提问方式和信息完整性的影响。
  2. 本研究通过扰动测试和消融测试,评估了不同LLM在面对误导信息和信息缺失时的诊断性能。
  3. 实验结果表明,所有模型均对用户因素敏感,专有模型在权威性语言误导下性能下降明显,省略关键临床信息影响最大。

📝 摘要(中文)

大型语言模型(LLM)在医疗保健领域的应用日益广泛,但其可靠性受到用户因素的显著影响,例如问题措辞和临床信息的完整性。本研究考察了错误信息框架、来源权威性、模型角色以及关键临床细节的缺失如何影响LLM输出的诊断准确性和可靠性。我们进行了两项实验:一项引入不同程度的误导性外部意见(扰动测试),另一项移除特定类别的患者信息(消融测试)。我们使用公共数据集(MedQA和Medbullets)评估了专有模型(GPT-4o、Claude 3.5 Sonnet、Claude 3.5 Haiku、Gemini 1.5 Pro、Gemini 1.5 Flash)和开源模型(LLaMA 3 8B、LLaMA 3 Med42 8B、DeepSeek R1 8B)。所有模型都容易受到用户驱动的错误信息的影响,其中专有模型尤其受到明确和权威语言的影响。在消融测试中,省略体格检查结果和实验室结果导致性能显著下降。虽然专有模型具有更高的基线准确性,但其性能在错误信息下急剧下降。这些结果强调了结构良好的提示和完整的临床背景的必要性。用户应避免权威性地构建错误信息,并提供完整的临床细节,特别是对于复杂病例。

🔬 方法详解

问题定义:本研究旨在评估大型语言模型(LLM)在医疗问询场景下的可靠性,特别是当用户提供的信息包含误导性内容或不完整时。现有方法缺乏对LLM在实际应用中可能遇到的用户因素干扰的系统性评估,导致LLM在医疗诊断辅助方面的应用存在潜在风险。

核心思路:本研究的核心思路是通过设计可控的实验,模拟用户在实际使用LLM进行医疗问询时可能遇到的情况,例如提供带有倾向性的外部意见或省略关键的临床信息。通过观察LLM在这些情况下的表现,评估其对用户因素的敏感程度和潜在的风险。

技术框架:本研究采用两阶段实验框架:扰动测试和消融测试。扰动测试旨在评估LLM对误导性外部意见的敏感性,通过引入不同程度的误导性信息,观察LLM的诊断准确性变化。消融测试旨在评估LLM对关键临床信息缺失的敏感性,通过移除特定类别的患者信息,观察LLM的诊断准确性变化。

关键创新:本研究的关键创新在于系统性地评估了LLM在医疗问询场景下对用户因素的敏感性,揭示了LLM在面对误导性信息和信息缺失时的潜在风险。此外,本研究还对比了不同类型的LLM(专有模型和开源模型)在这些情况下的表现,为LLM在医疗领域的应用提供了重要的参考。

关键设计:扰动测试中,通过改变外部意见的语气(例如,从不确定到确定)和权威性来控制误导性信息的强度。消融测试中,选择性地移除不同类别的患者信息,例如体格检查结果和实验室结果,以评估不同类型信息对LLM诊断准确性的影响。使用MedQA和Medbullets等公共数据集进行评估,并采用准确率等指标来衡量LLM的性能。

📊 实验亮点

实验结果表明,所有模型都容易受到用户驱动的错误信息的影响,专有模型尤其受到明确和权威语言的影响。省略体格检查结果和实验室结果导致性能显著下降。虽然专有模型具有更高的基线准确性,但其性能在错误信息下急剧下降。例如,在面对权威性误导信息时,GPT-4o的准确率下降幅度超过20%。

🎯 应用场景

该研究成果可应用于提升医疗领域大型语言模型的可靠性和安全性。通过优化提示工程,减少模型对误导信息的敏感性,并指导用户提供更完整的临床信息,从而提高LLM在辅助诊断、疾病预测和个性化治疗等方面的应用价值。研究结果也为医疗AI监管提供了参考。

📄 摘要(原文)

Large language models (LLMs) are increasingly used in healthcare, but their reliability is heavily influenced by user-driven factors such as question phrasing and the completeness of clinical information. In this study, we examined how misinformation framing, source authority, model persona, and omission of key clinical details affect the diagnostic accuracy and reliability of LLM outputs. We conducted two experiments: one introducing misleading external opinions with varying assertiveness (perturbation test), and another removing specific categories of patient information (ablation test). Using public datasets (MedQA and Medbullets), we evaluated proprietary models (GPT-4o, Claude 3.5 Sonnet, Claude 3.5 Haiku, Gemini 1.5 Pro, Gemini 1.5 Flash) and open-source models (LLaMA 3 8B, LLaMA 3 Med42 8B, DeepSeek R1 8B). All models were vulnerable to user-driven misinformation, with proprietary models especially affected by definitive and authoritative language. Assertive tone had the greatest negative impact on accuracy. In the ablation test, omitting physical exam findings and lab results caused the most significant performance drop. Although proprietary models had higher baseline accuracy, their performance declined sharply under misinformation. These results highlight the need for well-structured prompts and complete clinical context. Users should avoid authoritative framing of misinformation and provide full clinical details, especially for complex cases.