Safety Geometry Collapse in Multimodal LLMs and Adaptive Drift Correction
作者: Jiahe Guo, Xiangran Guo, Jiaxuan Chen, Weixiang Zhao, Yanyan Zhao, Yutai Hou, Qianchao Wang, Dandan Tu, Bing Qin
分类: cs.AI, cs.CR
发布日期: 2026-05-18
💡 一句话要点
针对多模态LLM安全几何坍塌问题,提出自适应漂移校正方法ReGap
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 大语言模型 安全性 表征学习 几何分析 漂移校正 自我纠正
📋 核心要点
- 多模态大语言模型在安全能力上存在差距,无法有效识别和拒绝有害的多模态输入,这是由于模态间的表征漂移导致安全几何坍塌。
- 论文核心在于通过分析拒绝方向和模态诱导漂移方向,提出自适应漂移校正方法ReGap,利用模型自我纠正能力来提升多模态安全性。
- 实验结果表明,ReGap在多个多模态安全基准测试中显著提高了模型的安全性,同时保持了模型的一般能力,验证了其有效性。
📝 摘要(中文)
多模态大型语言模型(MLLM)常常无法将文本模态中学习到的安全能力迁移到语义等价的非文本输入上,揭示了持续存在的多模态安全差距。本文从表征几何的角度研究了这一差距,分析了文本对齐的拒绝方向和模态诱导的漂移方向。研究表明,多模态输入压缩了沿拒绝方向的可使用分离度,使其不再可靠地识别和拒绝有害输入。我们将这种失效模式称为安全几何坍塌。我们通过条件拒绝可分离性来量化它,并表明更强的模态诱导漂移始终与更弱的拒绝可分离性和更高的攻击成功率相关。然后,我们通过固定强度的激活干预验证了模态诱导漂移的因果作用:抵消估计的漂移可以恢复拒绝可分离性并提高多模态安全性。在漂移校正后,我们进一步观察到自我纠正,即模型恢复了在前向动态过程中识别和拒绝有害多模态输入的能力。这种效应还提供了模型感知的每个输入有害性的内部信号。受此信号的启发,我们提出了ReGap,一种无需训练的推理时方法,它使用自我纠正自适应地校正模态漂移。跨多个多模态安全基准和效用基准的实验证明了ReGap的有效性,它在不影响一般能力的情况下显着提高了MLLM的安全性。我们的研究结果强调了表征层面的模态对齐是实时安全改进和构建更安全、更可靠的MLLM的关键方向。
🔬 方法详解
问题定义:多模态大型语言模型(MLLM)在处理多模态输入时,其安全能力相比于文本输入会显著下降,即无法有效识别和拒绝有害的多模态输入。现有方法难以解决模态间的表征漂移问题,导致模型在多模态空间中的安全几何结构发生坍塌,使得原本有效的拒绝机制失效。
核心思路:论文的核心思路是分析多模态输入对安全表征空间的影响,特别是模态诱导的漂移。通过识别和校正这种漂移,恢复模型在多模态空间中的拒绝能力。利用模型自身的自我纠正能力,设计一种自适应的漂移校正方法,从而在推理时提升模型的安全性。
技术框架:ReGap方法主要包含以下几个阶段:1) 分析文本对齐的拒绝方向和模态诱导的漂移方向;2) 通过激活干预验证模态诱导漂移的因果作用;3) 观察漂移校正后的自我纠正现象,并将其作为模型感知有害性的内部信号;4) 基于该信号,设计自适应漂移校正机制,在推理时动态调整模型的输出。
关键创新:ReGap的关键创新在于:1) 提出了“安全几何坍塌”的概念,从表征几何的角度解释了多模态安全差距;2) 利用模型自身的自我纠正能力,设计了一种无需训练的自适应漂移校正方法;3) 将自我纠正现象作为模型感知有害性的内部信号,用于指导漂移校正。
关键设计:ReGap的关键设计包括:1) 使用条件拒绝可分离性来量化安全几何坍塌的程度;2) 通过固定强度的激活干预来验证模态诱导漂移的因果作用;3) 设计自适应漂移校正机制,根据模型自我纠正信号动态调整模型的输出。具体参数设置和损失函数细节在论文中未明确给出,可能依赖于具体模型的架构和训练方式。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ReGap方法在多个多模态安全基准测试中显著提高了模型的安全性,且未牺牲模型的一般能力。具体性能数据和对比基线在摘要中未明确给出,但强调了ReGap在提升安全性的同时保持了模型原有的功能。
🎯 应用场景
该研究成果可应用于提升多模态大语言模型在各种场景下的安全性,例如智能客服、内容审核、自动驾驶等。通过ReGap方法,可以有效防止模型生成有害或不当内容,提高用户体验,降低安全风险。未来,该研究可以进一步扩展到其他多模态任务和模型,构建更安全、更可靠的人工智能系统。
📄 摘要(原文)
Multimodal large language models (MLLMs) often fail to transfer safety capabilities learned in the text modality to semantically equivalent non-text inputs, revealing a persistent multimodal safety gap. We study this gap from a representation-geometric perspective by analyzing a text-aligned refusal direction and a modality-induced drift direction. We show that multimodal inputs compress the usable separation along the refusal direction, making it no longer reliable for identifying and refusing harmful inputs. We refer to this failure mode as Safety Geometry Collapse. We quantify it through conditional refusal separability and show that stronger modality-induced drift is consistently associated with weaker refusal separability and higher attack success rates. We then validate the causal role of modality-induced drift through a fixed-strength activation intervention: counteracting the estimated drift restores refusal separability and improves multimodal safety. After drift correction, we further observe self-rectification, where the model recovers its ability to recognize and refuse harmful multimodal inputs during forward dynamics. This effect also provides an internal signal of the model's perceived harmfulness of each input. Motivated by this signal, we propose ReGap, a training-free inference-time method that adaptively corrects modality drift using self-rectification. Experiments across multiple multimodal safety benchmarks and utility benchmarks demonstrate the effectiveness of ReGap, which significantly improves the safety of MLLMs without compromising general capabilities. Our findings highlight representation-level modality alignment as a crucial direction for real-time safety improvement and for building safer, more reliable MLLMs.