Security Tensors as a Cross-Modal Bridge: Extending Text-Aligned Safety to Vision in LVLM

作者: Shen Li, Liuyi Yao, Wujia Niu, Lan Zhang, Yaliang Li

分类: cs.CV, cs.AI

发布日期: 2025-07-28

备注: Codes and data are available at https://github.com/listen0425/Security-Tensors

💡 一句话要点

提出安全张量，将文本对齐的安全性扩展到LVLM中的视觉模态

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 安全性 跨模态学习 安全张量 对抗攻击

📋 核心要点

现有LVLM的安全性主要集中在文本模态，忽略了视觉模态可能存在的安全风险，导致模型易受恶意图像攻击。
论文提出安全张量，通过可训练的输入向量，将文本模态的安全对齐知识迁移到视觉模态，提升LVLM的视觉安全性。
实验表明，安全张量能有效提升LVLM对有害视觉输入的识别和拒绝能力，同时保持在良性任务上的性能。

📝 摘要（中文）

大型视觉语言模型(LVLM)集成了对齐的大型语言模型(LLM)和视觉模块，以处理多模态输入。然而，为基于文本的LLM开发的安全机制不能自然地扩展到视觉模态，这使得LVLM容易受到有害图像输入的影响。为了解决这种跨模态安全差距，我们引入了安全张量——可训练的输入向量，通过文本或视觉模态在推理期间应用。这些张量将文本安全对齐转移到视觉处理，而无需修改模型的参数。它们使用一个精心策划的数据集进行优化，该数据集包含(i)需要拒绝的恶意图像-文本对，(ii)具有与恶意查询结构相似的文本的对比良性对，目的是作为对比示例来指导视觉依赖，以及(iii)保持模型功能的一般良性样本。实验结果表明，文本和视觉安全张量都显著增强了LVLM拒绝各种有害视觉输入的能力，同时保持了良性任务上几乎相同的性能。对隐藏层表示的进一步内部分析表明，安全张量成功地激活了语言模块在视觉输入中的文本“安全层”，从而有效地将基于文本的安全性扩展到视觉模态。

🔬 方法详解

问题定义：现有的大型视觉语言模型(LVLM)在安全性方面存在一个明显的缺口：它们主要依赖于为文本模态设计的安全机制，而忽略了视觉模态可能存在的安全风险。这意味着LVLM容易受到恶意图像的攻击，例如，用户可以通过输入一张看似无害但实际上包含有害信息的图片来绕过模型的安全检查。现有方法无法有效地将文本安全策略迁移到视觉模态，导致跨模态安全漏洞。

核心思路：论文的核心思路是引入“安全张量”作为跨模态的桥梁，将文本模态的安全知识迁移到视觉模态。安全张量是一种可训练的输入向量，可以添加到文本或视觉输入中。通过优化这些张量，可以使LVLM在处理视觉输入时，激活其内部的文本安全机制，从而提高对恶意图像的识别和拒绝能力。这种方法的核心在于，它不需要修改LVLM的原始模型参数，而是通过外部的输入调整来实现安全性的提升。

技术框架：该方法的技术框架主要包括以下几个步骤：1. 构建一个包含恶意图像-文本对、对比良性对和一般良性样本的数据集。2. 初始化安全张量（文本安全张量和视觉安全张量）。3. 使用数据集训练安全张量，目标是使模型拒绝恶意输入，接受良性输入，并保持在一般任务上的性能。4. 在推理阶段，将训练好的安全张量添加到输入中，以提高LVLM的安全性。

关键创新：该方法最重要的技术创新点在于提出了“安全张量”这一概念，并将其作为连接文本和视觉模态安全性的桥梁。与现有方法相比，该方法不需要修改LVLM的模型参数，而是通过优化输入来实现安全性的提升，这使得该方法更加灵活和高效。此外，该方法还引入了对比良性样本，以指导模型更好地理解视觉输入，并避免过度依赖文本信息。

关键设计：在数据集构建方面，论文特别设计了对比良性样本，这些样本的文本结构与恶意查询相似，但图像内容是良性的。这样设计的目的是为了防止模型过度依赖文本信息，而是鼓励模型更多地关注视觉内容。在训练过程中，使用了交叉熵损失函数来优化安全张量，目标是使模型正确分类恶意和良性输入。此外，还使用了正则化项来防止安全张量过度拟合训练数据。

🖼️ 关键图片

📊 实验亮点

实验结果表明，通过引入安全张量，LVLM在拒绝有害视觉输入方面的能力得到了显著提升，同时在良性任务上的性能几乎没有下降。具体来说，安全张量能够有效地激活语言模块的文本“安全层”，从而将文本安全策略成功地扩展到视觉模态。实验还表明，该方法对各种类型的恶意图像都具有较强的鲁棒性。

🎯 应用场景

该研究成果可应用于各种需要处理图像和文本的多模态应用场景，例如智能客服、内容审核、自动驾驶等。通过提升LVLM的视觉安全性，可以有效防止恶意用户利用图像传播有害信息，保障用户安全和平台稳定。未来，该方法可以进一步扩展到其他模态，例如音频和视频，以构建更加安全可靠的多模态人工智能系统。

📄 摘要（原文）

Large visual-language models (LVLMs) integrate aligned large language models (LLMs) with visual modules to process multimodal inputs. However, the safety mechanisms developed for text-based LLMs do not naturally extend to visual modalities, leaving LVLMs vulnerable to harmful image inputs. To address this cross-modal safety gap, we introduce security tensors - trainable input vectors applied during inference through either the textual or visual modality. These tensors transfer textual safety alignment to visual processing without modifying the model's parameters. They are optimized using a curated dataset containing (i) malicious image-text pairs requiring rejection, (ii) contrastive benign pairs with text structurally similar to malicious queries, with the purpose of being contrastive examples to guide visual reliance, and (iii) general benign samples preserving model functionality. Experimental results demonstrate that both textual and visual security tensors significantly enhance LVLMs' ability to reject diverse harmful visual inputs while maintaining near-identical performance on benign tasks. Further internal analysis towards hidden-layer representations reveals that security tensors successfully activate the language module's textual "safety layers" in visual inputs, thereby effectively extending text-based safety to the visual modality.

Security Tensors as a Cross-Modal Bridge: Extending Text-Aligned Safety to Vision in LVLM

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理