Large language models provide unsafe answers to patient-posed medical questions

📄 arXiv: 2507.18905v2 📥 PDF

作者: Rachel L. Draelos, Samina Afreen, Barbara Blasko, Tiffany L. Brazile, Natasha Chase, Dimple Patel Desai, Jessica Evert, Heather L. Gardner, Lauren Herrmann, Aswathy Vaikom House, Stephanie Kass, Marianne Kavan, Kirshma Khemani, Amanda Koire, Lauren M. McDonald, Zahraa Rabeeah, Amy Shah

分类: cs.CL, cs.HC

发布日期: 2025-07-25 (更新: 2025-08-04)

备注: 20 pages


💡 一句话要点

评估大型语言模型在医疗问答中的安全性,揭示潜在患者风险

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 医疗问答 安全性评估 红队测试 患者安全

📋 核心要点

  1. 现有大型语言模型在医疗建议方面存在安全性问题,患者可能面临潜在风险。
  2. 通过构建HealthAdvice数据集并进行红队测试,评估不同LLM在医疗问答中的安全性。
  3. 实验结果表明,不同LLM的安全性存在显著差异,部分回答可能导致患者受到伤害。

📝 摘要(中文)

数百万患者已经 নিয়মিত 使用大型语言模型(LLM)聊天机器人获取医疗建议,这引发了患者安全方面的担忧。本项由医生主导的红队研究,比较了四个公开可用的聊天机器人——Anthropic的Claude、Google的Gemini、OpenAI的GPT-4o和Meta的Llama3-70B——在一个名为HealthAdvice的新数据集上的安全性。研究使用了一个评估框架,能够进行定量和定性分析。总共评估了888个聊天机器人对222个患者提出的关于初级保健主题(涵盖内科、妇科和儿科)的医疗建议寻求问题的回答。研究发现聊天机器人之间存在统计学上的显著差异。问题回答率从21.6%(Claude)到43.2%(Llama)不等,不安全回答率从5%(Claude)到13%(GPT-4o、Llama)不等。定性结果揭示了聊天机器人的回答可能导致严重的患者伤害。这项研究表明,数百万患者可能正在从公开可用的聊天机器人那里获得不安全的医疗建议,需要进一步的工作来提高这些强大工具的临床安全性。

🔬 方法详解

问题定义:论文旨在评估当前流行的LLM在回答患者提出的医疗问题时的安全性。现有方法缺乏对LLM在医疗建议方面的系统性安全评估,患者可能从这些LLM获得不准确或不安全的医疗建议,从而导致潜在的健康风险。

核心思路:论文的核心思路是通过构建一个包含真实患者医疗问题的HealthAdvice数据集,并采用医生主导的红队测试方法,对多个LLM的回答进行安全性评估。通过定量和定性分析,揭示LLM在医疗建议方面的潜在风险。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 构建HealthAdvice数据集,包含内科、妇科和儿科等初级保健主题的患者问题;2) 选择四个公开可用的LLM:Claude、Gemini、GPT-4o和Llama3-70B;3) 使用HealthAdvice数据集向LLM提问,并记录其回答;4) 由医生组成的团队对LLM的回答进行安全性评估,包括问题回答率和不安全回答率;5) 进行定量和定性分析,比较不同LLM的安全性。

关键创新:该研究的关键创新在于:1) 构建了一个专门用于评估LLM医疗建议安全性的HealthAdvice数据集;2) 采用医生主导的红队测试方法,对LLM的回答进行专业评估;3) 对多个流行的LLM进行了安全性比较,揭示了它们在医疗建议方面的潜在风险。与现有方法相比,该研究更加注重LLM在实际医疗场景中的安全性,并提供了更全面的评估结果。

关键设计:该研究的关键设计包括:1) HealthAdvice数据集的构建,确保问题涵盖了常见的初级保健主题,并具有一定的代表性;2) 评估指标的选择,包括问题回答率和不安全回答率,能够全面反映LLM的安全性;3) 红队测试团队的组成,由经验丰富的医生组成,能够对LLM的回答进行专业评估。

📊 实验亮点

实验结果表明,不同LLM在医疗问答中的安全性存在显著差异。Claude的问题回答率最低(21.6%),Llama的问题回答率最高(43.2%)。Claude的不安全回答率最低(5%),GPT-4o和Llama的不安全回答率最高(13%)。定性分析揭示了LLM的回答可能导致严重的患者伤害,例如提供错误的药物剂量或忽略重要的病史信息。

🎯 应用场景

该研究结果可用于指导LLM的开发和部署,提高其在医疗领域的安全性。医疗机构和患者可以参考该研究,谨慎使用LLM提供的医疗建议。未来,可以通过改进LLM的训练数据和评估方法,进一步提高其在医疗领域的可靠性和安全性,从而更好地服务于患者。

📄 摘要(原文)

Millions of patients are already using large language model (LLM) chatbots for medical advice on a regular basis, raising patient safety concerns. This physician-led red-teaming study compares the safety of four publicly available chatbots--Claude by Anthropic, Gemini by Google, GPT-4o by OpenAI, and Llama3-70B by Meta--on a new dataset, HealthAdvice, using an evaluation framework that enables quantitative and qualitative analysis. In total, 888 chatbot responses are evaluated for 222 patient-posed advice-seeking medical questions on primary care topics spanning internal medicine, women's health, and pediatrics. We find statistically significant differences between chatbots. The rate of problematic responses varies from 21.6 percent (Claude) to 43.2 percent (Llama), with unsafe responses varying from 5 percent (Claude) to 13 percent (GPT-4o, Llama). Qualitative results reveal chatbot responses with the potential to lead to serious patient harm. This study suggests that millions of patients could be receiving unsafe medical advice from publicly available chatbots, and further work is needed to improve the clinical safety of these powerful tools.