ProjLens: Unveiling the Role of Projectors in Multimodal Model Safety
作者: Kun Wang, Cheng Qian, Miao Yu, Lilan Peng, Liang Lin, Jiaming Zhang, Tianyu Zhang, Yu Cheng, Yang Wang
分类: cs.CR, cs.AI
发布日期: 2026-04-21
备注: 18 pages ,15 figures
💡 一句话要点
ProjLens揭示投影层在多模态模型安全性中的作用,助力后门攻击分析与防御。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 后门攻击 可解释性 投影层 低秩分解
📋 核心要点
- 多模态大语言模型面临后门攻击的安全威胁,现有方法难以解释和缓解此类攻击。
- ProjLens框架通过分析投影层,揭示后门攻击的低秩结构和激活机制。
- 实验表明,即使仅微调投影层,模型也易受后门攻击,且激活机制与文本模型不同。
📝 摘要(中文)
多模态大型语言模型(MLLMs)在跨模态理解和生成方面取得了显著成功,但其部署受到严重的安全漏洞威胁。先前的工作已经证明了通过微调数据投毒来操纵推理,从而在MLLMs中植入后门的可行性,但后门攻击的潜在机制仍然不明确,这使得理解和缓解变得复杂。为了弥合这一差距,我们提出了ProjLens,一个旨在揭示MLLMs后门秘密的可解释性框架。我们首先确定,即使仅限于投影层微调,正常的下游任务对齐也会引入后门注入的漏洞,其激活机制与仅在文本LLMs中观察到的不同。通过对四种后门变体的广泛实验,我们揭示了:(1)低秩结构:后门注入更新总体上呈现满秩,并且缺乏专用的“触发神经元”,但后门关键参数被编码在投影层的低秩子空间内;(2)激活机制:干净和中毒的嵌入都经历了朝向与后门目标对齐的共享方向的语义转变,但偏移幅度与输入范数线性缩放,从而导致中毒样本上独特的后门激活。我们的代码可在以下网址获得:https://anonymous.4open.science/r/ProjLens-8FD7
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLMs)中后门攻击机制不明确的问题。现有的后门攻击方法虽然有效,但缺乏可解释性,难以理解后门是如何植入和激活的,从而阻碍了有效的防御措施的开发。特别是,投影层在连接视觉和语言模态中扮演关键角色,其安全性至关重要。
核心思路:论文的核心思路是通过可解释性分析,揭示后门攻击在投影层中的具体表现形式和激活机制。具体而言,论文假设后门攻击的关键信息并非分散在整个投影层中,而是集中在一个低秩子空间内。通过分析这个低秩子空间,可以更好地理解后门攻击的原理。
技术框架:ProjLens框架主要包含以下几个阶段:1) 后门攻击注入:使用数据投毒方法,在微调阶段将后门注入到MLLM的投影层中。2) 低秩分解:对投影层的权重矩阵进行低秩分解,提取出包含后门信息的低秩子空间。3) 激活机制分析:分析干净样本和中毒样本在经过投影层后的激活值的变化,从而揭示后门激活的机制。4) 实验验证:在不同的后门变体和数据集上进行实验,验证ProjLens框架的有效性。
关键创新:论文最重要的技术创新点在于发现了后门攻击在投影层中呈现低秩结构,并且揭示了后门激活的机制。与现有方法相比,ProjLens提供了一种更深入、更细粒度的后门攻击分析方法,可以帮助研究人员更好地理解和防御此类攻击。此外,论文还发现,即使仅微调投影层,模型也容易受到后门攻击,这表明投影层的安全性至关重要。
关键设计:论文的关键设计包括:1) 使用奇异值分解(SVD)进行低秩分解,提取后门关键参数所在的低秩子空间。2) 设计了多种后门变体,包括不同的触发器和目标标签,以评估ProjLens框架的泛化能力。3) 通过分析干净样本和中毒样本的嵌入向量在投影后的变化,揭示后门激活的机制,发现激活幅度与输入范数线性相关。
🖼️ 关键图片
📊 实验亮点
实验结果表明,后门攻击的关键参数集中在投影层的低秩子空间内,且后门激活幅度与输入范数线性相关。通过对四种后门变体的分析,验证了ProjLens框架的有效性。该研究为理解和防御多模态大语言模型中的后门攻击提供了新的视角。
🎯 应用场景
该研究成果可应用于提升多模态大语言模型的安全性,例如开发更有效的后门检测和防御机制。通过理解后门攻击的原理,可以设计更鲁棒的模型架构和训练方法,从而降低模型被恶意利用的风险。此外,该研究也有助于提高模型的可信度和可靠性,促进其在安全敏感领域的应用。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) have achieved remarkable success in cross-modal understanding and generation, yet their deployment is threatened by critical safety vulnerabilities. While prior works have demonstrated the feasibility of backdoors in MLLMs via fine-tuning data poisoning to manipulate inference, the underlying mechanisms of backdoor attacks remain opaque, complicating the understanding and mitigation. To bridge this gap, we propose ProjLens, an interpretability framework designed to demystify MLLMs backdoors. We first establish that normal downstream task alignment--even when restricted to projector fine--tuning--introduces vulnerability to backdoor injection, whose activation mechanism is different from that observed in text-only LLMs. Through extensive experiments across four backdoor variants, we uncover:(1) Low-Rank Structure: Backdoor injection updates appear overall full-rank and lack dedicated ``trigger neurons'', but the backdoor-critical parameters are encoded within a low-rank subspace of the projector;(2) Activation Mechanism: Both clean and poisoned embedding undergoes a semantic shift toward a shared direction aligned with the backdoor target, but the shifting magnitude scales linearly with the input norm, resulting in the distinct backdoor activation on poisoned samples. Our code is available at: https://anonymous.4open.science/r/ProjLens-8FD7