GuardAlign: Test-time Safety Alignment in Multimodal Large Language Models

作者: Xingyu Zhu, Beier Zhu, Junfeng Fang, Shuo Wang, Yin Zhang, Xiang Wang, Xiangnan He

分类: cs.CV, cs.MM

发布日期: 2026-02-27

备注: ICLR 2026

💡 一句话要点

GuardAlign：多模态大语言模型中基于测试时对齐的安全防御框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 安全性对齐 最优传输 注意力校准 测试时防御

📋 核心要点

现有LVLM安全防御方法在复杂场景下检测不准确，且解码过程中安全信号不稳定，导致防御效果不佳。
GuardAlign框架通过最优传输增强安全检测，并利用跨模态注意力校准，强化安全信号在生成过程中的影响。
实验表明，GuardAlign能有效降低不安全响应率，并在保持模型效用的同时，提升了在VQAv2上的性能。

📝 摘要（中文）

大型视觉语言模型(LVLMs)在视觉语言推理任务中取得了显著进展，但确保其安全性仍然是一个关键挑战。现有的输入侧防御方法使用CLIP检测不安全图像，并在提示中添加安全前缀，但在复杂场景中检测不准确，且解码过程中安全信号不稳定。为了解决这些问题，我们提出GuardAlign，一个无需训练的防御框架，集成了两种策略。首先，OT增强的安全检测利用最优传输来测量图像块和不安全语义之间的分布距离，从而能够准确识别恶意区域，而无需额外的计算成本。其次，跨模态注意力校准通过自适应地重新分配跨层的注意力来加强安全前缀的影响，确保安全信号在整个生成过程中保持一致激活。在六个代表性MLLM上的大量评估表明，GuardAlign在SPA-VL上将不安全响应率降低了高达39%，同时保持了效用，在VQAv2上实现了从78.51%到79.21%的改进。

🔬 方法详解

问题定义：论文旨在解决多模态大语言模型（MLLMs）在实际应用中面临的安全问题，即模型可能生成不安全或有害的内容。现有方法，如基于CLIP的图像检测和安全前缀提示，在复杂场景下检测精度不足，且安全提示在解码过程中容易被弱化，导致防御效果不稳定。

核心思路：GuardAlign的核心思路是在测试阶段，通过更精确的不安全内容检测和更稳定的安全信号传递来增强模型的安全性。具体来说，利用最优传输（Optimal Transport, OT）来提升图像安全检测的准确性，并使用跨模态注意力校准来增强安全前缀的影响力。

技术框架：GuardAlign框架包含两个主要模块：OT增强的安全检测和跨模态注意力校准。首先，OT增强的安全检测模块利用最优传输算法计算图像块与预定义的不安全语义之间的距离，从而更准确地识别图像中的恶意区域。然后，跨模态注意力校准模块通过自适应地调整不同层之间的注意力权重，来强化安全前缀在生成过程中的影响，确保模型始终关注安全信号。

关键创新：GuardAlign的关键创新在于：1) 使用最优传输进行细粒度的图像安全检测，克服了传统方法在复杂场景下的局限性；2) 提出跨模态注意力校准机制，解决了安全前缀在解码过程中容易被弱化的问题，保证了安全信号的持续有效性。该方法无需额外的训练，易于部署和应用。

关键设计：OT增强的安全检测模块使用Sinkhorn算法计算图像块与不安全语义之间的最优传输距离。跨模态注意力校准模块通过一个可学习的权重向量，自适应地调整不同层之间的注意力权重，该权重向量通过计算每一层输出与安全前缀之间的相关性来确定。具体而言，相关性越高，该层的权重越大，从而增强安全前缀的影响。

🖼️ 关键图片

📊 实验亮点

GuardAlign在六个代表性MLLM上进行了广泛评估，实验结果表明，该框架在SPA-VL数据集上将不安全响应率降低了高达39%，同时在VQAv2数据集上实现了从78.51%到79.21%的性能提升，验证了其在提高安全性的同时保持模型效用的能力。这些结果表明GuardAlign是一种有效的、无需训练的安全防御方法。

🎯 应用场景

GuardAlign框架可应用于各种需要确保安全性的多模态大语言模型应用场景，例如智能客服、内容生成、教育辅导等。通过提高模型对不安全内容的识别和防御能力，可以有效避免模型生成有害信息，降低潜在风险，提升用户体验，并促进多模态大语言模型的安全可靠应用。

📄 摘要（原文）

Large vision-language models (LVLMs) have achieved remarkable progress in vision-language reasoning tasks, yet ensuring their safety remains a critical challenge. Recent input-side defenses detect unsafe images with CLIP and prepend safety prefixes to prompts, but they still suffer from inaccurate detection in complex scenes and unstable safety signals during decoding. To address these issues, we propose GuardAlign, a training-free defense framework that integrates two strategies. First, OT-enhanced safety detection leverages optimal transport to measure distribution distances between image patches and unsafe semantics, enabling accurate identification of malicious regions without additional computational cost. Second, cross-modal attentive calibration strengthens the influence of safety prefixes by adaptively reallocating attention across layers, ensuring that safety signals remain consistently activated throughout generation. Extensive evaluations on six representative MLLMs demonstrate that GuardAlign reduces unsafe response rates by up to 39% on SPA-VL, while preserving utility, achieving an improvement on VQAv2 from 78.51% to 79.21%.

GuardAlign: Test-time Safety Alignment in Multimodal Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理