CircuitProbe: Dissecting Spatiotemporal Visual Semantics with Circuit Tracing

📄 arXiv: 2507.19420v1 📥 PDF

作者: Yiming Zhang, Chengzhang Yu, Zhuokai Zhao, Kun Wang, Qiankun Li, Zihan Chen, Yang Liu, Zenghui Ding, Yining Sun

分类: cs.CV, cs.LG

发布日期: 2025-07-25


💡 一句话要点

CircuitProbe:通过电路追踪剖析LVLMs中的时空视觉语义

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 视觉语言模型 时空语义 电路追踪 可解释性 视觉审计 语义追踪 注意力机制

📋 核心要点

  1. 现有LVLMs研究主要集中于语言和图像理解,缺乏对时空推理机制的深入理解。
  2. 提出CircuitProbe框架,通过视觉审计、语义追踪和注意力流三个电路来分析LVLMs的时空语义表示。
  3. 实验表明,视觉语义高度依赖特定对象tokens,且LVLMs中后期层对时空语义具有专门的功能定位。

📝 摘要(中文)

大型视觉语言模型(LVLMs)在语言和图像理解方面的处理机制已被广泛研究。然而,LVLMs在时空理解方面的内部推理机制仍然知之甚少。本文介绍了一个系统的、基于电路的框架,旨在研究时空视觉语义在这些LVLMs中如何被表示和处理。具体来说,我们的框架包括三个电路:视觉审计电路、语义追踪电路和注意力流电路。通过这些电路,我们发现视觉语义高度定位于特定的对象tokens——移除这些tokens可能会使模型性能降低高达92.6%。此外,我们发现对象和动作的可解释概念在LVLMs的中后期层中出现并逐渐完善。与目前仅关注单张图像中对象的工作相反,我们揭示了LVLMs的中后期层表现出针对时空语义的专门功能定位。我们的发现为LVLMs的时空语义分析提供了重要的机制性见解,为设计更鲁棒和可解释的模型奠定了基础。

🔬 方法详解

问题定义:现有的大型视觉语言模型(LVLMs)在时空理解方面的内部推理机制尚不明确。虽然已经有很多工作研究了LVLMs在语言和图像理解方面的能力,但是对于模型如何理解和处理随时间变化的视觉信息,以及不同对象之间的交互关系,仍然缺乏深入的了解。现有的方法主要集中于对单张图像中的对象进行分析,忽略了时空信息的重要性。

核心思路:本文的核心思路是通过构建一个基于电路的框架,来系统地研究LVLMs中时空视觉语义的表示和处理方式。该框架通过模拟电路分析的方法,将LVLMs的内部运作过程分解为不同的功能模块,并分析这些模块之间的信息流动,从而揭示模型如何理解和推理时空信息。通过分析关键神经元和连接,可以识别出负责特定时空语义的神经元子网络。

技术框架:CircuitProbe框架包含三个主要电路:视觉审计电路、语义追踪电路和注意力流电路。视觉审计电路用于识别对模型性能至关重要的视觉tokens。语义追踪电路用于追踪特定语义概念在模型中的传播路径,从而确定负责该概念的神经元。注意力流电路用于分析不同tokens之间的注意力关系,从而理解模型如何利用上下文信息进行推理。整个框架通过对这三个电路的综合分析,来揭示LVLMs中时空语义的表示和处理机制。

关键创新:该论文的关键创新在于提出了一个系统的、基于电路的框架,用于分析LVLMs中的时空视觉语义。与以往的研究主要关注单张图像中的对象不同,该框架能够分析模型如何理解和处理随时间变化的视觉信息,以及不同对象之间的交互关系。此外,该框架还能够识别出负责特定时空语义的神经元子网络,从而为理解LVLMs的内部运作机制提供了新的视角。

关键设计:视觉审计电路通过移除不同的视觉tokens,并观察模型性能的变化,来确定对模型性能至关重要的tokens。语义追踪电路使用因果干预技术,通过改变特定神经元的激活值,并观察模型输出的变化,来确定负责该语义概念的神经元。注意力流电路通过分析不同tokens之间的注意力权重,来理解模型如何利用上下文信息进行推理。具体的技术细节包括:使用梯度积分方法来确定tokens的重要性,使用线性探针来识别负责特定语义概念的神经元,以及使用注意力可视化技术来分析不同tokens之间的注意力关系。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,视觉语义高度定位于特定的对象tokens,移除这些tokens会导致模型性能显著下降(高达92.6%)。此外,研究发现LVLMs的中后期层对时空语义具有专门的功能定位,这与以往的研究主要关注单张图像中对象的结果不同。这些发现为LVLMs的时空语义分析提供了重要的机制性见解。

🎯 应用场景

该研究成果可应用于提升LVLMs在视频理解、机器人导航、自动驾驶等领域的性能。通过理解模型如何处理时空信息,可以设计更鲁棒、更可解释的模型,并提高模型在复杂环境中的适应能力。此外,该研究还可以帮助我们更好地理解人类视觉认知机制。

📄 摘要(原文)

The processing mechanisms underlying language and image understanding in large vision-language models (LVLMs) have been extensively studied. However, the internal reasoning mechanisms of LVLMs for spatiotemporal understanding remain poorly understood. In this work, we introduce a systematic, circuit-based framework designed to investigate how spatiotemporal visual semantics are represented and processed within these LVLMs. Specifically, our framework comprises three circuits: visual auditing circuit, semantic tracing circuit, and attention flow circuit. Through the lens of these circuits, we discover that visual semantics are highly localized to specific object tokens--removing these tokens can degrade model performance by up to 92.6%. Furthermore, we identify that interpretable concepts of objects and actions emerge and become progressively refined in the middle-to-late layers of LVLMs. In contrary to the current works that solely focus on objects in one image, we reveal that the middle-to-late layers of LVLMs exhibit specialized functional localization for spatiotemporal semantics. Our findings offer significant mechanistic insights into spatiotemporal semantics analysis of LVLMs, laying a foundation for designing more robust and interpretable models.