Sparse Visual Thought Circuits in Vision-Language Models

📄 arXiv: 2603.25075v1 📥 PDF

作者: Yunpeng Zhou

分类: cs.AI

发布日期: 2026-03-26


💡 一句话要点

探究视觉语言模型中稀疏视觉思维回路的可组合性与可控性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 稀疏自编码器 可解释性 可控性 因果推理 特征组合 输出漂移

📋 核心要点

  1. 现有基于干预的视觉语言模型控制方法依赖于SAE特征的模块化假设,但该假设的有效性缺乏充分验证。
  2. 该论文提出了一种可复现的因果pipeline,用于定位和测试视觉语言模型中的稀疏视觉思维回路,并评估其可组合性。
  3. 通过在Qwen3-VL-8B等模型上的实验,揭示了SAE特征可组合性的局限性,并为VLM控制提供了诊断框架。

📝 摘要(中文)

稀疏自编码器(SAEs)提高了多模态模型的可解释性,但SAE特征是否形成用于推理的模块化、可组合单元仍不清楚,而这正是许多基于干预的引导方法的基础。我们测试了这种模块化假设,发现它经常失效:干预任务选择性特征集可以适度提高推理准确性,而干预两个此类集合的并集会可靠地导致输出漂移(预测中大的意外变化)并降低准确性,即使在范数匹配的扰动下也是如此。这种非模块化电路干扰与共享内部路径一致,其中特征并集会放大激活变化。我们开发了一个可复现的因果pipeline,以在Qwen3-VL-8B中定位和测试这些稀疏视觉思维回路。在一个具有七种任务类型和三个难度级别的受控合成基准上,线性探针识别出任务类型信息位于解码器中间层。我们在此层训练SAE,通过显式规则构建任务选择性集合,并执行推理时缩放和消融,同时量化准确性和漂移。我们的发现——通过引导子样本和置换控制验证,并在多个VLM系列和五个不同的数据集上复制——阐明了SAE特征可组合性的边界,并为更可靠的VLM控制提供了严格的诊断框架。

🔬 方法详解

问题定义:现有视觉语言模型的可解释性和可控性不足,特别是基于稀疏自编码器(SAE)的干预方法,其有效性依赖于SAE特征的模块化和可组合性。然而,这种模块化假设是否成立,以及如何诊断和解决由此带来的问题,是当前研究的痛点。

核心思路:该论文的核心思路是通过构建一个可复现的因果pipeline,来定位和测试视觉语言模型中的稀疏视觉思维回路,并量化干预这些回路对模型输出的影响。通过系统地干预不同的特征集合,并观察模型的准确性和输出漂移,从而评估SAE特征的可组合性。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 在视觉语言模型的中间层训练稀疏自编码器(SAE)。2) 使用线性探针识别包含任务类型信息的特征。3) 基于这些特征构建任务选择性集合。4) 在推理时,通过缩放和消融这些特征集合,来干预模型的行为。5) 量化干预对模型准确性和输出漂移的影响。

关键创新:该论文的关键创新在于:1) 提出了一个可复现的因果pipeline,用于诊断视觉语言模型中稀疏特征的可组合性。2) 揭示了SAE特征的可组合性存在局限性,干预特征集合的并集可能导致输出漂移和准确性下降。3) 提供了一个诊断框架,用于评估和改进视觉语言模型的可控性。

关键设计:在实验设计方面,论文使用了Qwen3-VL-8B模型,并在一个受控的合成基准上进行了实验,该基准包含七种任务类型和三个难度级别。论文还使用了引导子样本和置换控制来验证实验结果的可靠性。此外,论文还使用了范数匹配的扰动来控制干预的强度,并量化了干预对模型准确性和输出漂移的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,干预任务选择性特征集可以适度提高推理准确性,但干预两个此类集合的并集会可靠地导致输出漂移并降低准确性。该发现在Qwen3-VL-8B等多个VLM系列和五个不同的数据集上得到验证,揭示了SAE特征可组合性的局限性。

🎯 应用场景

该研究成果可应用于提升视觉语言模型的可解释性和可控性,例如在医疗诊断、自动驾驶等安全攸关的领域,可以帮助用户理解模型的决策过程,并对其行为进行更精确的控制。此外,该研究提出的诊断框架可以用于评估和改进各种视觉语言模型,从而推动该领域的发展。

📄 摘要(原文)

Sparse autoencoders (SAEs) improve interpretability in multimodal models, but it remains unclear whether SAE features form modular, composable units for reasoning-an assumption underlying many intervention-based steering methods. We test this modularity hypothesis and find it often fails: intervening on a task-selective feature set can modestly improve reasoning accuracy, while intervening on the union of two such sets reliably induces output drift (large unintended changes in predictions) and degrades accuracy, even under norm-matched perturbations. This non modular circuit interference is consistent with shared internal pathways where feature unions amplify activation shifts. We develop a reproducible causal pipeline to localize and test these sparse visual thought circuits in Qwen3-VL-8B. On a controlled synthetic benchmark with seven task types and three difficulty levels, linear probes identify a mid decoder locus for task type information. We train SAEs at this layer, construct task-selective sets via an explicit rule, and perform inference time scaling and ablation while quantifying accuracy and drift. Our findings-validated with bootstrapped subsamples and permutation controls, and replicated across multiple VLM families and five diverse datasets clarify the boundaries of SAE feature composability and provide a rigorous diagnostic framework for more reliable VLM control.