The Forgotten Shield: Safety Grafting in Parameter-Space for Medical MLLMs
作者: Jiale Zhao, Xing Mou, Jinlin Wu, Hongyuan Yu, Mingrui Sun, Yang Shi, Xuanwu Yin, Zhen Chen, Zhen Lei, Yaohua Wang
分类: cs.LG, cs.AI, cs.CL
发布日期: 2025-12-05
💡 一句话要点
提出参数空间安全嫁接方法,提升医学多模态大语言模型的安全性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 医学多模态大语言模型 安全性 参数空间干预 安全对齐 跨模态攻击
📋 核心要点
- 现有医学多模态大语言模型在安全性方面存在不足,容易受到跨模态攻击,且医学微调会降低模型的原始安全性。
- 提出一种参数空间干预方法,从原始模型提取安全知识并注入到医学模型中,实现高效的安全重新对齐。
- 实验结果表明,该方法在不使用额外安全数据的情况下,显著提升了医学模型的安全性,并尽可能减少了医学性能的下降。
📝 摘要(中文)
医学多模态大语言模型(Medical MLLMs)在专业医学任务中取得了显著进展;然而,对其安全性的研究相对滞后,给实际部署带来了潜在风险。本文首先建立了一个多维度评估框架,系统地评估了当前SOTA Medical MLLMs的安全性。实证分析揭示了现有模型在通用和医学特定安全维度上的普遍漏洞,尤其突出了它们在跨模态越狱攻击面前的脆弱性。此外,我们发现医学微调过程经常导致模型原始安全对齐的灾难性遗忘。为了应对这一挑战,我们提出了一种新颖的“参数空间干预”方法,用于高效的安全重新对齐。该方法从原始基础模型中提取内在的安全知识表示,并在构建医学能力的同时将其注入到目标模型中。此外,我们设计了一种细粒度的参数搜索算法,以实现安全性和医学性能之间的最佳权衡。实验结果表明,我们的方法在不依赖额外领域特定安全数据的情况下,显著增强了Medical MLLMs的安全防护,同时最大限度地减少了对核心医学性能的降低。
🔬 方法详解
问题定义:医学多模态大语言模型虽然在医学任务上表现出色,但安全性不足,容易受到恶意攻击,例如跨模态越狱攻击。此外,针对医学任务的微调过程会导致模型遗忘其原本的安全对齐,从而进一步降低安全性。现有方法缺乏有效且高效的安全重新对齐策略。
核心思路:核心思想是从预训练的通用大模型中提取其内在的安全知识表示,然后将这些知识“嫁接”到医学微调后的模型中。通过这种方式,可以在不依赖大量医学安全数据的情况下,为医学模型注入安全防护能力。这种方法基于一个假设:通用大模型已经具备一定的安全意识,而这些知识可以通过参数空间干预的方式迁移。
技术框架:整体框架包含两个主要阶段:1) 安全知识提取:从预训练的通用大模型中提取安全相关的参数子空间。具体方法未知,但推测可能涉及分析模型在安全相关任务上的激活模式或梯度信息。2) 参数空间嫁接:将提取的安全知识注入到医学微调后的模型中。这可能涉及到对医学模型的特定参数进行调整,使其与安全知识表示对齐。此外,还设计了一个细粒度的参数搜索算法,用于在安全性和医学性能之间找到最佳平衡点。
关键创新:关键创新在于提出了一种“参数空间干预”的安全重新对齐方法。与传统的基于数据微调的安全对齐方法不同,该方法直接在参数空间进行操作,避免了对大量安全数据的依赖。这种方法更加高效,并且可以有效防止医学微调带来的安全遗忘问题。
关键设计:论文中提到的关键设计包括:1) 安全知识表示的提取方法(具体未知)。2) 参数空间嫁接的具体实现方式(如何选择和调整参数,未知)。3) 细粒度的参数搜索算法,用于平衡安全性和医学性能。该算法的具体细节未知,但推测可能涉及到某种形式的贝叶斯优化或强化学习。
🖼️ 关键图片
📊 实验亮点
该研究通过参数空间干预,在不依赖额外领域特定安全数据的情况下,显著增强了Medical MLLMs的安全防护。实验结果表明,该方法能够在提升模型安全性的同时,最大限度地减少对核心医学性能的降低。具体的性能提升数据和对比基线未在摘要中明确给出,属于未知信息。
🎯 应用场景
该研究成果可应用于提升各类医学多模态大语言模型的安全性,降低其在医疗诊断、治疗建议等实际应用中产生有害或误导性信息的风险。通过增强模型的安全防护能力,可以更安全地部署这些模型,辅助医生进行决策,提高医疗服务的质量和效率。该方法也有潜力推广到其他领域的大语言模型,提升其整体安全性。
📄 摘要(原文)
Medical Multimodal Large Language Models (Medical MLLMs) have achieved remarkable progress in specialized medical tasks; however, research into their safety has lagged, posing potential risks for real-world deployment. In this paper, we first establish a multidimensional evaluation framework to systematically benchmark the safety of current SOTA Medical MLLMs. Our empirical analysis reveals pervasive vulnerabilities across both general and medical-specific safety dimensions in existing models, particularly highlighting their fragility against cross-modality jailbreak attacks. Furthermore, we find that the medical fine-tuning process frequently induces catastrophic forgetting of the model's original safety alignment. To address this challenge, we propose a novel "Parameter-Space Intervention" approach for efficient safety re-alignment. This method extracts intrinsic safety knowledge representations from original base models and concurrently injects them into the target model during the construction of medical capabilities. Additionally, we design a fine-grained parameter search algorithm to achieve an optimal trade-off between safety and medical performance. Experimental results demonstrate that our approach significantly bolsters the safety guardrails of Medical MLLMs without relying on additional domain-specific safety data, while minimizing degradation to core medical performance.