The Forgotten Shield: Safety Grafting in Parameter-Space for Medical MLLMs

作者: Jiale Zhao, Xing Mou, Jinlin Wu, Hongyuan Yu, Mingrui Sun, Yang Shi, Xuanwu Yin, Zhen Chen, Zhen Lei, Yaohua Wang

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-12-05

💡 一句话要点

提出参数空间安全嫁接方法，提升医学多模态大语言模型的安全性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 医学多模态大语言模型 安全性 参数空间干预 安全对齐 跨模态攻击

📋 核心要点

现有医学多模态大语言模型在安全性方面存在不足，容易受到跨模态攻击，且医学微调会降低模型的原始安全性。
提出一种参数空间干预方法，从原始模型提取安全知识并注入到医学模型中，实现高效的安全重新对齐。
实验结果表明，该方法在不使用额外安全数据的情况下，显著提升了医学模型的安全性，并尽可能减少了医学性能的下降。

📝 摘要（中文）

医学多模态大语言模型(Medical MLLMs)在专业医学任务中取得了显著进展；然而，对其安全性的研究相对滞后，给实际部署带来了潜在风险。本文首先建立了一个多维度评估框架，系统地评估了当前SOTA Medical MLLMs的安全性。实证分析揭示了现有模型在通用和医学特定安全维度上的普遍漏洞，尤其突出了它们在跨模态越狱攻击面前的脆弱性。此外，我们发现医学微调过程经常导致模型原始安全对齐的灾难性遗忘。为了应对这一挑战，我们提出了一种新颖的“参数空间干预”方法，用于高效的安全重新对齐。该方法从原始基础模型中提取内在的安全知识表示，并在构建医学能力的同时将其注入到目标模型中。此外，我们设计了一种细粒度的参数搜索算法，以实现安全性和医学性能之间的最佳权衡。实验结果表明，我们的方法在不依赖额外领域特定安全数据的情况下，显著增强了Medical MLLMs的安全防护，同时最大限度地减少了对核心医学性能的降低。

🔬 方法详解

问题定义：医学多模态大语言模型虽然在医学任务上表现出色，但安全性不足，容易受到恶意攻击，例如跨模态越狱攻击。此外，针对医学任务的微调过程会导致模型遗忘其原本的安全对齐，从而进一步降低安全性。现有方法缺乏有效且高效的安全重新对齐策略。

核心思路：核心思想是从预训练的通用大模型中提取其内在的安全知识表示，然后将这些知识“嫁接”到医学微调后的模型中。通过这种方式，可以在不依赖大量医学安全数据的情况下，为医学模型注入安全防护能力。这种方法基于一个假设：通用大模型已经具备一定的安全意识，而这些知识可以通过参数空间干预的方式迁移。

技术框架：整体框架包含两个主要阶段：1) 安全知识提取：从预训练的通用大模型中提取安全相关的参数子空间。具体方法未知，但推测可能涉及分析模型在安全相关任务上的激活模式或梯度信息。2) 参数空间嫁接：将提取的安全知识注入到医学微调后的模型中。这可能涉及到对医学模型的特定参数进行调整，使其与安全知识表示对齐。此外，还设计了一个细粒度的参数搜索算法，用于在安全性和医学性能之间找到最佳平衡点。

关键创新：关键创新在于提出了一种“参数空间干预”的安全重新对齐方法。与传统的基于数据微调的安全对齐方法不同，该方法直接在参数空间进行操作，避免了对大量安全数据的依赖。这种方法更加高效，并且可以有效防止医学微调带来的安全遗忘问题。

关键设计：论文中提到的关键设计包括：1) 安全知识表示的提取方法（具体未知）。2) 参数空间嫁接的具体实现方式（如何选择和调整参数，未知）。3) 细粒度的参数搜索算法，用于平衡安全性和医学性能。该算法的具体细节未知，但推测可能涉及到某种形式的贝叶斯优化或强化学习。

🖼️ 关键图片

📊 实验亮点

该研究通过参数空间干预，在不依赖额外领域特定安全数据的情况下，显著增强了Medical MLLMs的安全防护。实验结果表明，该方法能够在提升模型安全性的同时，最大限度地减少对核心医学性能的降低。具体的性能提升数据和对比基线未在摘要中明确给出，属于未知信息。

🎯 应用场景

该研究成果可应用于提升各类医学多模态大语言模型的安全性，降低其在医疗诊断、治疗建议等实际应用中产生有害或误导性信息的风险。通过增强模型的安全防护能力，可以更安全地部署这些模型，辅助医生进行决策，提高医疗服务的质量和效率。该方法也有潜力推广到其他领域的大语言模型，提升其整体安全性。

📄 摘要（原文）

Medical Multimodal Large Language Models (Medical MLLMs) have achieved remarkable progress in specialized medical tasks; however, research into their safety has lagged, posing potential risks for real-world deployment. In this paper, we first establish a multidimensional evaluation framework to systematically benchmark the safety of current SOTA Medical MLLMs. Our empirical analysis reveals pervasive vulnerabilities across both general and medical-specific safety dimensions in existing models, particularly highlighting their fragility against cross-modality jailbreak attacks. Furthermore, we find that the medical fine-tuning process frequently induces catastrophic forgetting of the model's original safety alignment. To address this challenge, we propose a novel "Parameter-Space Intervention" approach for efficient safety re-alignment. This method extracts intrinsic safety knowledge representations from original base models and concurrently injects them into the target model during the construction of medical capabilities. Additionally, we design a fine-grained parameter search algorithm to achieve an optimal trade-off between safety and medical performance. Experimental results demonstrate that our approach significantly bolsters the safety guardrails of Medical MLLMs without relying on additional domain-specific safety data, while minimizing degradation to core medical performance.

The Forgotten Shield: Safety Grafting in Parameter-Space for Medical MLLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理