Benchmarking the Safety of Large Language Models for Robotic Health Attendant Control
作者: Mahiro Nakao, Kazuhiro Takemoto
分类: cs.AI, cs.CY, cs.RO
发布日期: 2026-04-29
备注: 20 pages, 9 figures, 3 tables, 8 pages supplementary material
💡 一句话要点
评估大型语言模型在机器人健康助手控制中的安全性
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 机器人健康助手 安全性评估 医疗伦理 有害指令 仿真环境 违规率 专有模型
📋 核心要点
- 现有大型语言模型在机器人健康助手控制中的安全性评估不足,存在较高的违规风险。
- 本文提出了一个包含270条有害指令的数据集,并在仿真环境中评估72个LLMs的安全性。
- 实验结果显示,开放权重模型的平均违规率为54.4%,而专有模型的安全性显著更高,达到23.7%。
📝 摘要(中文)
大型语言模型(LLMs)越来越多地被考虑用于机器人健康助手的控制组件,但其在此背景下的安全性仍然缺乏充分的评估。本文引入了一个包含270条有害指令的数据集,涵盖九类禁止行为,并在基于机器人健康助手框架的仿真环境中评估了72个LLMs。所有模型的平均违规率为54.4%,超过一半的模型违规率超过50%。模型大小和发布日期是开放权重模型安全性能的主要决定因素,而专有模型的安全性显著高于开放权重模型。医学领域的微调未显著提高整体安全性,提示防御策略对最不安全模型的违规率仅有适度降低。这些发现表明,安全评估必须作为开发和部署LLMs的首要标准。
🔬 方法详解
问题定义:本文旨在解决大型语言模型在机器人健康助手控制中安全性评估不足的问题。现有方法未能充分识别和量化模型在医疗场景中的潜在风险,导致安全隐患。
核心思路:通过构建一个包含270条有害指令的数据集,论文评估了不同LLMs在处理这些指令时的安全性表现,强调安全评估的重要性。
技术框架:研究采用了基于机器人健康助手的仿真环境,评估72个不同的LLMs。数据集涵盖九类禁止行为,模型的表现通过违规率进行量化。
关键创新:最重要的创新在于引入了针对医疗伦理的有害指令数据集,并系统性地评估了LLMs的安全性,这在现有文献中尚属首次。
关键设计:研究中关注模型的大小和发布日期作为安全性能的决定因素,且发现医学领域的微调未能显著提升安全性,提示防御策略的效果有限。实验中使用了标准的违规率作为评估指标。
🖼️ 关键图片
📊 实验亮点
实验结果显示,72个评估的LLMs平均违规率为54.4%,其中超过一半的模型违规率超过50%。专有模型的安全性显著高于开放权重模型,后者的中位数违规率为72.8%。这些结果强调了安全评估在医疗AI系统开发中的重要性。
🎯 应用场景
该研究的潜在应用领域包括医疗机器人、智能健康助手和自动化护理系统。通过确保大型语言模型的安全性,可以在临床环境中更安全地部署这些技术,从而提高患者护理质量和效率。未来,研究成果将推动医疗AI系统的安全标准制定和实施。
📄 摘要(原文)
Large language models (LLMs) are increasingly considered for deployment as the control component of robotic health attendants, yet their safety in this context remains poorly characterized. We introduce a dataset of 270 harmful instructions spanning nine prohibited behavior categories grounded in the American Medical Association Principles of Medical Ethics, and use it to evaluate 72 LLMs in a simulation environment based on the Robotic Health Attendant framework. The mean violation rate across all models was 54.4\%, with more than half exceeding 50\%, and violation rates varied substantially across behavior categories, with superficially plausible instructions such as device manipulation and emergency delay proving harder to refuse than overtly destructive ones. Model size and release date were the primary determinants of safety performance among open-weight models, and proprietary models were substantially safer than open-weight counterparts (median 23.7\% versus 72.8\%). Medical domain fine-tuning conferred no significant overall safety benefit, and a prompt-based defense strategy produced only a modest reduction in violation rates among the least safe models, leaving absolute violation rates at levels that would preclude safe clinical deployment. These findings demonstrate that safety evaluation must be treated as a first-class criterion in the development and deployment of LLMs for robotic health attendants.