Gaslight, Gatekeep, V1-V3: Early Visual Cortex Alignment Shields Vision-Language Models from Sycophantic Manipulation

📄 arXiv: 2604.13803v1 📥 PDF

作者: Arya Shah, Vaibhav Tripathi, Mayank Singh, Chaklam Silpasuwanchai

分类: cs.CV, cs.AI

发布日期: 2026-04-15

备注: 28 pages, 9 figures, 13 tables

🔗 代码/项目: GITHUB | HUGGINGFACE


💡 一句话要点

早期视觉皮层对齐可提升视觉-语言模型对抗诱导的抵抗力

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 视觉-语言模型 对抗攻击 诱导性操纵 早期视觉皮层 大脑对齐

📋 核心要点

  1. 视觉-语言模型易受诱导性操纵,现有研究对其内部视觉信息表示的脆弱性认识不足。
  2. 该研究的核心思想是探索视觉表征与人类早期视觉皮层对齐程度和模型抗诱导性之间的关系。
  3. 实验结果表明,早期视觉皮层(V1-V3)的对齐程度与模型的抗诱导性呈负相关,尤其是在存在否定攻击中。

📝 摘要(中文)

视觉-语言模型越来越多地应用于高风险场景,但它们对诱导性操纵的敏感性仍然知之甚少,尤其是在这些模型如何内部表示视觉信息方面。视觉表征更接近人类神经处理的模型是否也更能抵抗对抗性压力,这是一个开放的问题,对神经科学和人工智能安全都有影响。我们通过评估12个开源视觉-语言模型,涵盖6个架构家族和40倍的参数范围(256M-10B),沿着两个轴来研究这个问题:大脑对齐,通过预测来自自然场景数据集的8名人类受试者和6个感兴趣的视觉皮层区域的fMRI反应来衡量;以及诱导性,通过76,800个两轮“煤气灯效应”提示来衡量,涵盖5个类别和10个难度级别。感兴趣区域分析表明,早期视觉皮层(V1-V3)的对齐是诱导性的可靠负预测因子(r = -0.441, BCa 95% CI [-0.740, -0.031]),所有12个留一法相关性均为负,并且存在否定攻击的效果最强(r = -0.597, p = 0.040)。这种解剖学上的特定关系在更高阶的类别选择性区域中不存在,这表明忠实的低级视觉编码为视觉-语言模型中对抗性语言覆盖提供了一个可衡量的锚点。我们在GitHub上发布了我们的代码,并在Hugging Face上发布了数据集。

🔬 方法详解

问题定义:现有视觉-语言模型在高风险场景中应用广泛,但容易受到诱导性操纵,即通过语言引导模型产生错误的视觉判断。现有方法缺乏对模型内部视觉表征的深入理解,以及如何提升模型对对抗性语言输入的鲁棒性。

核心思路:该研究的核心思路是探究视觉-语言模型中视觉表征与人类早期视觉皮层(V1-V3)的对齐程度,以及这种对齐程度与模型抗诱导性之间的关系。作者假设,如果模型的视觉表征更接近人类的视觉处理方式,那么它将更不容易受到对抗性语言的干扰。

技术框架:该研究评估了12个开源视觉-语言模型,涵盖6个架构家族和不同的参数规模。研究通过以下步骤进行:1) 使用自然场景数据集(Natural Scenes Dataset)获取人类受试者的fMRI数据,并提取6个感兴趣的视觉皮层区域(包括V1-V3)的响应。2) 使用视觉-语言模型提取视觉表征。3) 计算模型视觉表征与人类fMRI响应之间的对齐程度。4) 使用包含76,800个“煤气灯效应”提示的数据集评估模型的诱导性。5) 分析大脑对齐程度与诱导性之间的相关性。

关键创新:该研究的关键创新在于发现早期视觉皮层(V1-V3)的对齐程度与视觉-语言模型的抗诱导性之间存在显著的负相关关系。这表明,忠实的低级视觉编码可以为模型提供一个抵抗对抗性语言覆盖的锚点。此外,研究还发现这种关系在更高阶的类别选择性区域中并不存在,突出了早期视觉皮层的重要性。

关键设计:研究使用了自然场景数据集和fMRI数据来衡量模型与人类视觉皮层的对齐程度。诱导性评估采用了包含多种类别和难度级别的“煤气灯效应”提示,以全面评估模型的抗诱导能力。研究使用了留一法相关性分析和引导置信区间(BCa 95% CI)来评估结果的统计显著性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,早期视觉皮层(V1-V3)的对齐程度与视觉-语言模型的抗诱导性呈显著负相关(r = -0.441, BCa 95% CI [-0.740, -0.031])。在存在否定攻击的情况下,这种负相关性更加明显(r = -0.597, p = 0.040)。所有12个留一法相关性均为负,进一步验证了该结论的鲁棒性。

🎯 应用场景

该研究成果可应用于提升视觉-语言模型在安全关键领域的可靠性,例如自动驾驶、医疗诊断等。通过优化模型架构,使其视觉表征更接近人类早期视觉皮层,可以增强模型对对抗性攻击的防御能力,减少因语言诱导而产生的错误判断。

📄 摘要(原文)

Vision-language models are increasingly deployed in high-stakes settings, yet their susceptibility to sycophantic manipulation remains poorly understood, particularly in relation to how these models represent visual information internally. Whether models whose visual representations more closely mirror human neural processing are also more resistant to adversarial pressure is an open question with implications for both neuroscience and AI safety. We investigate this question by evaluating 12 open-weight vision-language models spanning 6 architecture families and a 40$\times$ parameter range (256M--10B) along two axes: brain alignment, measured by predicting fMRI responses from the Natural Scenes Dataset across 8 human subjects and 6 visual cortex regions of interest, and sycophancy, measured through 76,800 two-turn gaslighting prompts spanning 5 categories and 10 difficulty levels. Region-of-interest analysis reveals that alignment specifically in early visual cortex (V1--V3) is a reliable negative predictor of sycophancy ($r = -0.441$, BCa 95\% CI $[-0.740, -0.031]$), with all 12 leave-one-out correlations negative and the strongest effect for existence denial attacks ($r = -0.597$, $p = 0.040$). This anatomically specific relationship is absent in higher-order category-selective regions, suggesting that faithful low-level visual encoding provides a measurable anchor against adversarial linguistic override in vision-language models. We release our code on \href{https://github.com/aryashah2k/Gaslight-Gatekeep-Sycophantic-Manipulation}{GitHub} and dataset on \href{https://huggingface.co/datasets/aryashah00/Gaslight-Gatekeep-V1-V3}{Hugging Face}