Visual Self-Fulfilling Alignment: Shaping Safety-Oriented Personas via Threat-Related Images

作者: Qishun Yang, Shu Yang, Lijie Hu, Di Wang

分类: cs.CV, cs.AI

发布日期: 2026-03-09

💡 一句话要点

提出视觉自洽对齐(VSFA)，通过威胁图像塑造安全导向的多模态大模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大模型 安全对齐 视觉自洽 无标签学习 视觉问答

📋 核心要点

现有MLLM安全对齐方法依赖安全标签或对比数据，但安全概念抽象，缺乏视觉参照。
VSFA通过在威胁相关图像上进行VQA微调，使模型内化警惕和谨慎的语义，塑造安全人格。
实验表明，VSFA能有效降低攻击成功率，提高响应质量，并缓解过度拒绝问题。

📝 摘要（中文）

多模态大型语言模型(MLLM)面临安全对齐问题，即视觉输入可能导致有害输出。现有方法通常需要显式的安全标签或对比数据。然而，威胁相关的概念具体且可以通过视觉描绘，而安全概念（如乐于助人）则抽象且缺乏视觉参照。受涌现式不对齐背后的自洽机制启发，我们提出了视觉自洽对齐(VSFA)。VSFA在围绕威胁相关图像构建的中性VQA任务上微调视觉-语言模型(VLM)，无需任何安全标签。通过重复暴露于威胁相关的视觉内容，模型内化了警惕和谨慎的隐式语义，从而塑造了安全导向的人格。在多个VLM和安全基准上的实验表明，VSFA降低了攻击成功率，提高了响应质量，并减轻了过度拒绝，同时保留了一般能力。我们的工作将自洽机制从文本扩展到视觉模态，为VLM对齐提供了一种无标签方法。

🔬 方法详解

问题定义：多模态大语言模型（MLLMs）容易受到视觉输入的影响，产生不安全的输出。现有的安全对齐方法通常需要大量的安全标签数据或对比学习数据，这些数据标注成本高昂，并且难以覆盖所有潜在的安全风险。此外，安全概念（例如“有帮助的”）通常是抽象的，缺乏明确的视觉对应，这使得构建有效的视觉对比数据变得困难。

核心思路：该论文的核心思路是利用“自洽”机制，通过让模型反复接触与威胁相关的视觉信息，使其内化一种警惕和谨慎的语义，从而在没有显式安全标签的情况下实现安全对齐。这种方法借鉴了文本领域中发现的自洽现象，并将其扩展到视觉模态。核心假设是，威胁相关的概念更容易通过视觉方式表达，因此可以通过视觉输入来引导模型形成安全意识。

技术框架：VSFA 的整体框架包括以下步骤：1) 收集或生成包含威胁相关内容的图像数据集。2) 基于这些图像构建视觉问答（VQA）任务，问题设计为中性且不涉及安全敏感信息。3) 使用这些 VQA 数据集对预训练的视觉-语言模型（VLM）进行微调。微调过程中，模型通过学习回答与威胁图像相关的问题，逐渐内化与安全相关的语义。4) 使用安全基准测试评估微调后的模型的安全性能。

关键创新：该论文的关键创新在于将自洽机制从文本领域扩展到视觉领域，并提出了一种无标签的视觉安全对齐方法。与需要大量标注数据的传统方法不同，VSFA 只需要包含威胁相关图像的数据集，并通过 VQA 任务引导模型学习安全语义。这种方法降低了安全对齐的成本，并提高了可扩展性。

关键设计：VQA任务的设计是关键。问题需要围绕威胁相关的图像内容展开，但避免直接涉及安全敏感信息。例如，对于一张显示刀具的图像，问题可以是“图中有什么物体？”，而不是“这件物品可以用来做什么？”。损失函数通常采用标准的 VQA 损失函数，例如交叉熵损失，用于优化模型在 VQA 任务上的性能。具体的网络结构取决于所使用的 VLM，例如 CLIP 或 BLIP。

🖼️ 关键图片

📊 实验亮点

实验结果表明，VSFA 在多个安全基准测试中显著降低了攻击成功率，同时提高了响应质量和缓解了过度拒绝问题。例如，在某些基准测试中，攻击成功率降低了 20% 以上。更重要的是，VSFA 在提高安全性的同时，没有显著降低模型的一般能力，这表明该方法具有良好的实用性。

🎯 应用场景

该研究成果可应用于各种需要安全保障的多模态应用场景，例如智能客服、自动驾驶、医疗诊断等。通过提高模型对潜在威胁的识别和规避能力，可以有效降低安全风险，提升用户体验。未来，该方法可以进一步扩展到其他模态，例如音频和视频，以实现更全面的安全对齐。

📄 摘要（原文）

Multimodal large language models (MLLMs) face safety misalignment, where visual inputs enable harmful outputs. To address this, existing methods require explicit safety labels or contrastive data; yet, threat-related concepts are concrete and visually depictable, while safety concepts, like helpfulness, are abstract and lack visual referents. Inspired by the Self-Fulfilling mechanism underlying emergent misalignment, we propose Visual Self-Fulfilling Alignment (VSFA). VSFA fine-tunes vision-language models (VLMs) on neutral VQA tasks constructed around threat-related images, without any safety labels. Through repeated exposure to threat-related visual content, models internalize the implicit semantics of vigilance and caution, shaping safety-oriented personas. Experiments across multiple VLMs and safety benchmarks demonstrate that VSFA reduces the attack success rate, improves response quality, and mitigates over-refusal while preserving general capabilities. Our work extends the self-fulfilling mechanism from text to visual modalities, offering a label-free approach to VLMs alignment.

Visual Self-Fulfilling Alignment: Shaping Safety-Oriented Personas via Threat-Related Images

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理