Do No Harm? Hallucination and Actor-Level Abuse in Web-Deployed Medical Large Language Models

作者: Sunday Oyinlola Ogundoyin, Muhammad Ikram, Rahat Masood

分类: cs.CL, cs.CY

发布日期: 2026-05-20

💡 一句话要点

评估医疗大语言模型幻觉与滥用风险，揭示Web部署模型的安全隐患

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 医疗大语言模型 幻觉检测 政策合规性 安全评估 Web部署 隐私保护 MedGPT HAA-MedGPT

📋 核心要点

现有Web部署的医疗LLM存在幻觉、违反政策和设计不安全等问题，对临床指导构成潜在风险。
论文提出MedGPT-HEval框架用于幻觉检测，并构建LLM-based pipeline评估政策违规和开发者意图。
实验结果表明，大量MedGPT存在事实准确性低、违反操作阈值和缺乏隐私披露等问题，亟需加强监管。

📝 摘要（中文）

医疗大语言模型（LLM），包括定制医疗GPT（MedGPT）和开源模型，越来越多地部署在Web平台上以提供临床指导。然而，它们存在幻觉、不符合政策和不安全设计的风险。我们对6233个MedGPT进行了大规模评估，并对其中分层抽样的1500个以及10个开源LLM进行了评估。我们引入了两个框架：用于幻觉检测的MedGPT-HEval和一个基于LLM的pipeline，用于评估政策违规和开发者意图。结果表明，25-30%的MedGPT表现出较低的事实准确性，其中底层和中层模型风险最高；33.6-54.3%违反了操作阈值，57.06%的Action-enabled模型缺乏足够的隐私披露。与开源模型相比，MedGPT实现了更高的事实准确性和语义对齐，但开源模型更稳定。这些结果揭示了幻觉和合规性方面的系统性差距，突出了多指标评估和更强安全措施的必要性。我们发布了HAA-MedGPT，这是一个结构化数据集，支持未来对面向Web的医疗LLM安全性的研究。

🔬 方法详解

问题定义：论文旨在评估Web部署的医疗大语言模型（MedGPTs）和开源LLM在临床指导应用中存在的幻觉、政策违规和不安全设计等问题。现有方法缺乏对这些模型在实际部署环境中的系统性安全评估，无法有效识别和解决潜在的风险。

核心思路：论文的核心思路是通过构建专门的评估框架和pipeline，对MedGPTs和开源LLM进行大规模、多维度的安全评估。通过量化模型的幻觉程度、政策合规性和隐私保护措施，揭示Web部署医疗LLM的潜在风险，并为未来的安全研究提供数据支持。

技术框架：论文构建了两个主要的技术框架：MedGPT-HEval用于幻觉检测，以及一个基于LLM的pipeline用于评估政策违规和开发者意图。MedGPT-HEval框架可能包含一系列预定义的医疗知识问答，通过评估模型回答的准确性来判断其幻觉程度。政策违规评估pipeline则可能利用LLM来分析模型的行为和输出，判断其是否符合相关的医疗政策和隐私法规。

关键创新：论文的关键创新在于针对Web部署的医疗LLM，提出了一个系统性的安全评估方法。该方法不仅关注模型的幻觉问题，还考虑了政策合规性和隐私保护等因素，从而更全面地评估了模型的安全性。此外，论文还构建了一个结构化的数据集HAA-MedGPT，为未来的研究提供了宝贵的数据资源。

关键设计：论文的具体技术细节未知，但可以推测MedGPT-HEval可能采用了基于知识图谱或医学文献的评估方法，以确保评估的准确性和可靠性。政策违规评估pipeline可能使用了自然语言处理技术，例如文本分类和命名实体识别，来自动分析模型的行为和输出。此外，HAA-MedGPT数据集的构建可能采用了分层抽样等方法，以确保数据集的代表性和多样性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，25-30%的MedGPT存在较低的事实准确性，33.6-54.3%违反了操作阈值，57.06%的Action-enabled模型缺乏足够的隐私披露。与开源模型相比，MedGPT在事实准确性和语义对齐方面表现更好，但开源模型更稳定。这些数据清晰地揭示了Web部署医疗LLM的安全隐患，为后续研究提供了重要参考。

🎯 应用场景

该研究成果可应用于医疗LLM的开发、评估和监管。开发者可以利用该研究提出的评估框架来改进模型的设计，降低幻觉风险，提高政策合规性。监管机构可以利用该研究的结果来制定更严格的监管标准，确保Web部署的医疗LLM的安全性和可靠性。该研究还有助于提高公众对医疗LLM风险的认识，促进负责任的AI发展。

📄 摘要（原文）

Medical large language models (LLMs), including custom medical GPTs (MedGPTs) and open-source models, are increasingly deployed on web platforms to provide clinical guidance. However, they pose risks of hallucination, policy noncompliance, and unsafe design. We conduct a large-scale assessment of 6,233 MedGPTs, evaluating a stratified sample of 1,500, together with 10 open-source LLMs. We introduce two frameworks: MedGPT-HEval for hallucination detection and an LLM-based pipeline for assessing policy violations and developer intent. Our results show that 25-30% of MedGPTs exhibit low factual accuracy, with bottom- and middle-tier models at highest risk; 33.6-54.3% violate operational thresholds, and 57.06% of Action-enabled models lack adequate privacy disclosures. Compared with open-source models, MedGPTs achieve higher factual accuracy and semantic alignment, though open-source models are more stable. These results reveal systemic gaps in hallucination and compliance, highlighting the need for multi-metric evaluation and stronger safeguards. We release HAA-MedGPT, a structured dataset that supports future research on the safety of web-facing medical LLMs.

Do No Harm? Hallucination and Actor-Level Abuse in Web-Deployed Medical Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理