Do No Harm? Hallucination and Actor-Level Abuse in Web-Deployed Medical Large Language Models
作者: Sunday Oyinlola Ogundoyin, Muhammad Ikram, Rahat Masood
分类: cs.CL, cs.CY
发布日期: 2026-05-20
💡 一句话要点
评估医疗大语言模型幻觉与滥用风险,揭示Web部署模型的安全隐患
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 医疗大语言模型 幻觉检测 政策合规性 安全评估 Web部署 隐私保护 MedGPT HAA-MedGPT
📋 核心要点
- 现有Web部署的医疗LLM存在幻觉、违反政策和设计不安全等问题,对临床指导构成潜在风险。
- 论文提出MedGPT-HEval框架用于幻觉检测,并构建LLM-based pipeline评估政策违规和开发者意图。
- 实验结果表明,大量MedGPT存在事实准确性低、违反操作阈值和缺乏隐私披露等问题,亟需加强监管。
📝 摘要(中文)
医疗大语言模型(LLM),包括定制医疗GPT(MedGPT)和开源模型,越来越多地部署在Web平台上以提供临床指导。然而,它们存在幻觉、不符合政策和不安全设计的风险。我们对6233个MedGPT进行了大规模评估,并对其中分层抽样的1500个以及10个开源LLM进行了评估。我们引入了两个框架:用于幻觉检测的MedGPT-HEval和一个基于LLM的pipeline,用于评估政策违规和开发者意图。结果表明,25-30%的MedGPT表现出较低的事实准确性,其中底层和中层模型风险最高;33.6-54.3%违反了操作阈值,57.06%的Action-enabled模型缺乏足够的隐私披露。与开源模型相比,MedGPT实现了更高的事实准确性和语义对齐,但开源模型更稳定。这些结果揭示了幻觉和合规性方面的系统性差距,突出了多指标评估和更强安全措施的必要性。我们发布了HAA-MedGPT,这是一个结构化数据集,支持未来对面向Web的医疗LLM安全性的研究。
🔬 方法详解
问题定义:论文旨在评估Web部署的医疗大语言模型(MedGPTs)和开源LLM在临床指导应用中存在的幻觉、政策违规和不安全设计等问题。现有方法缺乏对这些模型在实际部署环境中的系统性安全评估,无法有效识别和解决潜在的风险。
核心思路:论文的核心思路是通过构建专门的评估框架和pipeline,对MedGPTs和开源LLM进行大规模、多维度的安全评估。通过量化模型的幻觉程度、政策合规性和隐私保护措施,揭示Web部署医疗LLM的潜在风险,并为未来的安全研究提供数据支持。
技术框架:论文构建了两个主要的技术框架:MedGPT-HEval用于幻觉检测,以及一个基于LLM的pipeline用于评估政策违规和开发者意图。MedGPT-HEval框架可能包含一系列预定义的医疗知识问答,通过评估模型回答的准确性来判断其幻觉程度。政策违规评估pipeline则可能利用LLM来分析模型的行为和输出,判断其是否符合相关的医疗政策和隐私法规。
关键创新:论文的关键创新在于针对Web部署的医疗LLM,提出了一个系统性的安全评估方法。该方法不仅关注模型的幻觉问题,还考虑了政策合规性和隐私保护等因素,从而更全面地评估了模型的安全性。此外,论文还构建了一个结构化的数据集HAA-MedGPT,为未来的研究提供了宝贵的数据资源。
关键设计:论文的具体技术细节未知,但可以推测MedGPT-HEval可能采用了基于知识图谱或医学文献的评估方法,以确保评估的准确性和可靠性。政策违规评估pipeline可能使用了自然语言处理技术,例如文本分类和命名实体识别,来自动分析模型的行为和输出。此外,HAA-MedGPT数据集的构建可能采用了分层抽样等方法,以确保数据集的代表性和多样性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,25-30%的MedGPT存在较低的事实准确性,33.6-54.3%违反了操作阈值,57.06%的Action-enabled模型缺乏足够的隐私披露。与开源模型相比,MedGPT在事实准确性和语义对齐方面表现更好,但开源模型更稳定。这些数据清晰地揭示了Web部署医疗LLM的安全隐患,为后续研究提供了重要参考。
🎯 应用场景
该研究成果可应用于医疗LLM的开发、评估和监管。开发者可以利用该研究提出的评估框架来改进模型的设计,降低幻觉风险,提高政策合规性。监管机构可以利用该研究的结果来制定更严格的监管标准,确保Web部署的医疗LLM的安全性和可靠性。该研究还有助于提高公众对医疗LLM风险的认识,促进负责任的AI发展。
📄 摘要(原文)
Medical large language models (LLMs), including custom medical GPTs (MedGPTs) and open-source models, are increasingly deployed on web platforms to provide clinical guidance. However, they pose risks of hallucination, policy noncompliance, and unsafe design. We conduct a large-scale assessment of 6,233 MedGPTs, evaluating a stratified sample of 1,500, together with 10 open-source LLMs. We introduce two frameworks: MedGPT-HEval for hallucination detection and an LLM-based pipeline for assessing policy violations and developer intent. Our results show that 25-30% of MedGPTs exhibit low factual accuracy, with bottom- and middle-tier models at highest risk; 33.6-54.3% violate operational thresholds, and 57.06% of Action-enabled models lack adequate privacy disclosures. Compared with open-source models, MedGPTs achieve higher factual accuracy and semantic alignment, though open-source models are more stable. These results reveal systemic gaps in hallucination and compliance, highlighting the need for multi-metric evaluation and stronger safeguards. We release HAA-MedGPT, a structured dataset that supports future research on the safety of web-facing medical LLMs.