VISOR++: Universal Visual Inputs based Steering for Large Vision Language Models

📄 arXiv: 2509.25533v1 📥 PDF

作者: Ravikumar Balakrishnan, Mansi Phute

分类: cs.CV, cs.AI

发布日期: 2025-09-29


💡 一句话要点

VISOR++:基于通用视觉输入的视觉语言模型行为引导方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 行为控制 通用视觉输入 模型引导 安全性 对齐 多模态学习

📋 核心要点

  1. 现有VLM行为控制方法存在局限,如易受用户指令影响、需运行时访问模型内部,限制了其在API服务和闭源模型上的应用。
  2. VISOR++通过优化视觉输入实现行为控制,生成通用图像诱导目标激活模式,无需运行时模型访问,具有部署无关性。
  3. 实验表明,VISOR++在开放和封闭模型上均有效,能实现定向行为转变,并在MMLU评估中保持高性能。

📝 摘要(中文)

随着视觉语言模型(VLMs)被部署到安全关键应用中,理解和控制它们的行为模式变得越来越重要。现有的行为控制方法面临显著的局限性:系统提示方法容易被用户指令覆盖,而基于激活的引导向量需要侵入式的运行时模型内部访问,这排除了基于API服务和闭源模型的部署。寻找能够跨多个VLMs迁移的引导方法仍然是一个开放的研究领域。为此,我们引入了基于通用视觉输入的输出重定向引导方法(VISOR++),以仅通过优化的视觉输入来实现行为控制。我们证明,可以为一个VLMs集成生成一个VISOR++图像,以模拟每个VLMs的引导向量。通过制作诱导目标激活模式的通用视觉输入,VISOR++消除了对运行时模型访问的需求,同时保持了与部署无关性。这意味着当底层模型支持多模态能力时,可以通过插入图像输入来引导模型行为,从而取代基于运行时引导向量的干预。我们首先在LLaVA-1.5-7B和IDEFICS2-8B等开放访问模型上,沿着拒绝、谄媚和生存本能三个对齐方向,展示了VISOR++图像的有效性。模型特定的引导图像和联合优化的图像都实现了与引导向量相当的性能,紧密地遵循了正向和负向引导任务。我们还展示了VISOR++图像在实现包括开放访问和封闭访问模型在内的未见模型的定向行为转变方面的潜力。此外,VISOR++图像能够在14,000个不相关的MMLU评估任务中保持99.9%的性能。

🔬 方法详解

问题定义:现有视觉语言模型(VLM)的行为控制方法,如系统提示和基于激活的引导向量,存在易受用户指令干扰和需要运行时访问模型内部等问题。这限制了它们在安全关键应用和闭源模型中的部署,并且缺乏跨多个VLM的通用性。

核心思路:VISOR++的核心思路是通过优化视觉输入来引导VLM的行为。通过生成特定的图像,诱导VLM产生目标激活模式,从而实现对模型输出的控制。这种方法避免了对模型内部的直接访问,使其具有更强的通用性和部署灵活性。

技术框架:VISOR++的技术框架主要包括以下几个阶段:1) 定义目标行为方向(例如,拒绝、谄媚、生存本能);2) 针对特定VLM或VLM集合,优化生成能够诱导目标行为的视觉输入(VISOR++图像);3) 将生成的VISOR++图像作为输入,与用户指令一起输入VLM,观察模型的行为变化。整个过程无需修改模型参数或访问模型内部状态。

关键创新:VISOR++最重要的技术创新在于其通用视觉输入引导的思想。与传统的引导方法不同,VISOR++不依赖于对模型内部的修改或访问,而是通过精心设计的视觉输入来影响模型的行为。这种方法具有更强的通用性和可移植性,可以应用于各种不同的VLM,包括闭源模型。

关键设计:VISOR++的关键设计包括:1) 优化算法的选择,用于生成能够有效诱导目标激活模式的视觉输入;2) 损失函数的设计,用于衡量生成的视觉输入与目标行为之间的差距;3) 针对不同VLM的视觉输入优化策略,以提高VISOR++的通用性和鲁棒性。论文中使用了模型特定的引导图像和联合优化的图像,并与引导向量进行了性能对比。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

VISOR++在LLaVA-1.5-7B和IDEFICS2-8B等开放模型上实现了与引导向量相当的性能,能够有效引导模型沿着拒绝、谄媚和生存本能等方向进行行为转变。此外,VISOR++在未见过的开放和封闭模型上展现了良好的泛化能力,并在14,000个MMLU评估任务中保持了99.9%的性能。

🎯 应用场景

VISOR++具有广泛的应用前景,可用于安全关键型VLM系统的行为控制,例如自动驾驶、医疗诊断等。它还可以用于评估和提高VLM的安全性,防止模型产生有害或不当的输出。此外,VISOR++为VLM的部署和应用提供了更灵活的方式,尤其是在无法直接访问模型内部的情况下。

📄 摘要(原文)

As Vision Language Models (VLMs) are deployed across safety-critical applications, understanding and controlling their behavioral patterns has become increasingly important. Existing behavioral control methods face significant limitations: system prompting approaches could easily be overridden by user instructions, while applying activation-based steering vectors requires invasive runtime access to model internals, precluding deployment with API-based services and closed-source models. Finding steering methods that transfer across multiple VLMs is still an open area of research. To this end, we introduce universal visual input based steering for output redirection (VISOR++), to achieve behavioral control through optimized visual inputs alone. We demonstrate that a single VISOR++ image can be generated for an ensemble of VLMs to emulate each of their steering vectors. By crafting universal visual inputs that induce target activation patterns, VISOR++ eliminates the need for runtime model access while remaining deployment-agnostic. This means that when an underlying model supports multimodal capability, model behaviors can be steered by inserting an image input replacing runtime steering vector based interventions. We first demonstrate the effectiveness of the VISOR++ images on open-access models such as LLaVA-1.5-7B and IDEFICS2-8B along three alignment directions: refusal, sycophancy and survival instinct. Both the model-specific steering images and the jointly optimized images achieve performance parity closely following that of steering vectors for both positive and negative steering tasks. We also show the promise of VISOR++ images in achieving directional behavioral shifts for unseen models including both open-access and closed-access ones. Furthermore, VISOR++ images are able to preserve 99.9% performance on 14,000 unrelated MMLU evaluation tasks.