Two Birds, One Projection: Harmonizing Safety and Utility in LVLMs via Inference-time Feature Projection

📄 arXiv: 2603.14825v1 📥 PDF

作者: Yewon Han, Yumin Seol, EunGyung Kong, Minsoo Jo, Taesup Kim

分类: cs.CV, cs.AI

发布日期: 2026-03-16


💡 一句话要点

提出Two Birds, One Projection,通过推理时特征投影调和LVLM的安全性与效用。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型视觉语言模型 越狱防御 安全性 效用 特征投影 模态偏差 推理时优化

📋 核心要点

  1. 现有LVLM防御方法在提升安全性的同时,通常会牺牲视觉推理任务的性能,存在安全性与效用的权衡。
  2. 论文核心思想是识别并消除由模态间次优耦合导致的偏差方向,通过特征投影到该偏差方向的零空间来实现。
  3. 提出的Two Birds, One Projection方法仅需单次前向传播,即可同时提升LVLM在安全性和通用任务上的表现。

📝 摘要(中文)

现有的大型视觉语言模型(LVLM)的越狱防御框架通常面临安全性和效用之间的权衡,即加强安全性会无意中降低通用视觉推理任务的性能。本文研究了安全性和效用是否是天生对立的目标。我们关注跨数据集一致观察到的模态诱导偏差方向,该偏差源于大型语言模型骨干网络和视觉编码器之间的次优耦合。我们进一步证明,这个方向会损害两项任务的性能。基于此,我们提出了Two Birds, One Projection,一种高效的推理时越狱防御方法,它将跨模态特征投影到已识别偏差方向的零空间,以消除相应的分量。我们的方法仅需一次前向传递,即可有效地打破传统权衡,同时提高各种基准测试中的安全性和效用。

🔬 方法详解

问题定义:现有的大型视觉语言模型(LVLM)在安全性防御方面存在一个根本性的问题:为了防止模型被“越狱”从而生成有害内容,通常会采取一些防御措施。然而,这些防御措施往往会降低模型在正常视觉推理任务上的性能,导致安全性和效用之间存在权衡。现有的方法难以同时保证安全性和效用。

核心思路:论文的核心思路是识别并消除LVLM中存在的模态诱导偏差。作者发现,由于视觉编码器和语言模型之间的耦合不佳,导致模型存在一个跨数据集一致的偏差方向。这个偏差方向不仅影响了模型的安全性,也降低了其在通用视觉推理任务上的性能。因此,通过将跨模态特征投影到该偏差方向的零空间,可以有效地消除偏差,从而同时提升安全性和效用。

技术框架:Two Birds, One Projection方法主要包含以下几个步骤:1) 偏差方向识别:通过分析模型在不同数据集上的表现,识别出模态诱导偏差方向。2) 特征投影:在推理时,将跨模态特征投影到已识别偏差方向的零空间。这一步可以通过简单的线性代数运算实现。3) 模型推理:使用投影后的特征进行后续的语言模型推理,从而生成最终的输出。整个过程只需要一次前向传播,计算效率很高。

关键创新:该方法最重要的创新点在于发现了模态诱导偏差方向的存在,并证明了消除该偏差可以同时提升安全性和效用。与以往的防御方法不同,该方法不是简单地对模型的输出进行过滤或修改,而是从根本上解决了模型中存在的偏差问题。此外,该方法只需要在推理时进行特征投影,不需要对模型进行重新训练,因此可以很容易地应用于现有的LVLM。

关键设计:该方法的关键设计在于如何准确地识别模态诱导偏差方向,以及如何有效地将特征投影到该偏差方向的零空间。具体来说,作者可能使用了某种优化算法来找到最佳的投影矩阵,以最大程度地消除偏差,同时最小程度地影响模型的正常性能。此外,作者可能还探索了不同的特征表示方法,以提高投影的效率和准确性。具体的参数设置、损失函数、网络结构等技术细节需要在论文中进一步查找。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Two Birds, One Projection方法在多个基准测试中都取得了显著的性能提升。实验结果表明,该方法不仅可以有效地防御越狱攻击,还可以提高模型在通用视觉推理任务上的准确率。具体的性能数据和提升幅度需要在论文中进一步查找。

🎯 应用场景

该研究成果可广泛应用于需要安全可靠的大型视觉语言模型,例如智能客服、自动驾驶、医疗诊断等领域。通过提升模型的安全性和通用性,可以减少有害信息的生成,提高模型在实际应用中的可靠性,并为未来的多模态安全研究提供新的思路。

📄 摘要(原文)

Existing jailbreak defence frameworks for Large Vision-Language Models often suffer from a safety utility tradeoff, where strengthening safety inadvertently degrades performance on general visual-grounded reasoning tasks. In this work, we investigate whether safety and utility are inherently antagonistic objectives. We focus on a modality induced bias direction consistently observed across datasets, which arises from suboptimal coupling between the Large Language Model backbone and visual encoders. We further demonstrate that this direction undermines performance on both tasks. Leveraging this insight, we propose Two Birds, One Projection, an efficient inference time jailbreak defence that projects cross-modal features onto the null space of the identified bias direction to remove the corresponding components. Requiring only a single forward pass, our method effectively breaks the conventional tradeoff, simultaneously improving both safety and utility across diverse benchmarks.