SAVeS: Steering Safety Judgments in Vision-Language Models via Semantic Cues
作者: Carlos Hinojosa, Clemens Grange, Bernard Ghanem
分类: cs.CV, cs.AI, cs.CL, cs.LG
发布日期: 2026-03-19
💡 一句话要点
SAVeS:通过语义线索操纵视觉-语言模型中的安全判断
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言模型 安全判断 语义操纵 情境安全 多模态推理
📋 核心要点
- 现有视觉-语言模型在安全决策方面缺乏对视觉信息的可靠理解,易受语义线索的干扰。
- 提出一种语义操纵框架,通过控制文本、视觉和认知干预来研究和影响VLMs的安全判断。
- 构建SAVeS基准,并设计评估协议,实验表明VLMs的安全决策易受语义线索影响,存在潜在安全风险。
📝 摘要(中文)
视觉-语言模型(VLMs)越来越多地部署在现实世界和具身环境中,在这些环境中,安全决策取决于视觉上下文。然而,尚不清楚哪些视觉证据驱动了这些判断。本文研究了VLMs中的多模态安全行为是否可以通过简单的语义线索来操纵。我们引入了一个语义操纵框架,该框架应用受控的文本、视觉和认知干预,而不改变底层场景内容。为了评估这些影响,我们提出了SAVeS,这是一个用于在语义线索下进行情境安全评估的基准,以及一个分离行为拒绝、基于常识的安全推理和错误拒绝的评估协议。跨多个VLM和一个额外的最先进基准的实验表明,安全决策对语义线索高度敏感,表明依赖于学习到的视觉-语言关联,而不是基于常识的视觉理解。我们进一步证明,自动化操纵管道可以利用这些机制,突出了多模态安全系统中的潜在漏洞。
🔬 方法详解
问题定义:现有的视觉-语言模型(VLMs)在安全判断方面存在问题,它们依赖于学习到的视觉-语言关联,而不是对视觉场景的真正理解。这导致它们容易受到语义线索的操纵,从而做出不安全的决策。现有方法缺乏对VLM安全推理过程的细粒度控制和评估,难以发现和解决潜在的安全漏洞。
核心思路:本文的核心思路是通过引入可控的语义线索,来研究和操纵VLMs的安全判断。通过在不改变底层场景内容的情况下,对文本、视觉和认知层面进行干预,可以观察VLMs对不同语义线索的反应,从而揭示其安全推理的机制和弱点。
技术框架:该框架包含三个主要组成部分:1) 语义操纵模块,用于生成带有不同语义线索的输入;2) VLM模型,用于对输入进行安全判断;3) 评估模块,用于评估VLM模型的安全判断结果,并分析其对语义线索的敏感性。SAVeS基准用于提供情境安全评估数据,评估协议用于分离行为拒绝、基于常识的安全推理和错误拒绝。
关键创新:该论文的关键创新在于提出了一个语义操纵框架,可以对VLMs的安全判断进行细粒度控制和评估。通过引入可控的语义线索,可以系统地研究VLMs的安全推理机制,并发现其潜在的安全漏洞。SAVeS基准和评估协议为评估VLMs的安全性能提供了一个新的标准。
关键设计:语义操纵模块通过控制文本描述(例如,将“刀”描述为“玩具刀”)、视觉提示(例如,添加或移除危险物品)和认知干预(例如,改变场景的上下文)来生成不同的语义线索。评估模块使用一系列指标来评估VLMs的安全判断结果,包括拒绝率、准确率和错误拒绝率。实验中使用了多个VLM模型,并与现有的安全基准进行了比较。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VLMs的安全决策对语义线索高度敏感,即使是微小的语义变化也可能导致安全判断的显著改变。在SAVeS基准上,通过语义操纵,可以显著影响VLMs的拒绝率和错误拒绝率,揭示了其对视觉-语言关联的过度依赖。此外,自动化操纵管道能够有效地利用这些机制,进一步证明了多模态安全系统存在潜在的漏洞。
🎯 应用场景
该研究成果可应用于提升机器人、自动驾驶等具身智能系统的安全性。通过理解VLMs的安全推理机制,可以设计更鲁棒的安全策略,减少因语义误导导致的安全事故。此外,该研究也为评估和改进多模态安全系统提供了新的方法和工具。
📄 摘要(原文)
Vision-language models (VLMs) are increasingly deployed in real-world and embodied settings where safety decisions depend on visual context. However, it remains unclear which visual evidence drives these judgments. We study whether multimodal safety behavior in VLMs can be steered by simple semantic cues. We introduce a semantic steering framework that applies controlled textual, visual, and cognitive interventions without changing the underlying scene content. To evaluate these effects, we propose SAVeS, a benchmark for situational safety under semantic cues, together with an evaluation protocol that separates behavioral refusal, grounded safety reasoning, and false refusals. Experiments across multiple VLMs and an additional state-of-the-art benchmark show that safety decisions are highly sensitive to semantic cues, indicating reliance on learned visual-linguistic associations rather than grounded visual understanding. We further demonstrate that automated steering pipelines can exploit these mechanisms, highlighting a potential vulnerability in multimodal safety systems.