CircuitProbe: Dissecting Spatiotemporal Visual Semantics with Circuit Tracing

作者: Yiming Zhang, Chengzhang Yu, Zhuokai Zhao, Kun Wang, Qiankun Li, Zihan Chen, Yang Liu, Zenghui Ding, Yining Sun

分类: cs.CV, cs.LG

发布日期: 2025-07-25

💡 一句话要点

CircuitProbe：通过电路追踪剖析LVLMs中的时空视觉语义

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation)

关键词: 视觉语言模型 时空语义 电路追踪 可解释性 视觉审计 语义追踪 注意力机制

📋 核心要点

现有LVLMs研究主要集中于语言和图像理解，缺乏对时空推理机制的深入理解。
提出CircuitProbe框架，通过视觉审计、语义追踪和注意力流三个电路来分析LVLMs的时空语义表示。
实验表明，视觉语义高度依赖特定对象tokens，且LVLMs中后期层对时空语义具有专门的功能定位。

📝 摘要（中文）

大型视觉语言模型（LVLMs）在语言和图像理解方面的处理机制已被广泛研究。然而，LVLMs在时空理解方面的内部推理机制仍然知之甚少。本文介绍了一个系统的、基于电路的框架，旨在研究时空视觉语义在这些LVLMs中如何被表示和处理。具体来说，我们的框架包括三个电路：视觉审计电路、语义追踪电路和注意力流电路。通过这些电路，我们发现视觉语义高度定位于特定的对象tokens——移除这些tokens可能会使模型性能降低高达92.6%。此外，我们发现对象和动作的可解释概念在LVLMs的中后期层中出现并逐渐完善。与目前仅关注单张图像中对象的工作相反，我们揭示了LVLMs的中后期层表现出针对时空语义的专门功能定位。我们的发现为LVLMs的时空语义分析提供了重要的机制性见解，为设计更鲁棒和可解释的模型奠定了基础。

🔬 方法详解

问题定义：现有的大型视觉语言模型（LVLMs）在时空理解方面的内部推理机制尚不明确。虽然已经有很多工作研究了LVLMs在语言和图像理解方面的能力，但是对于模型如何理解和处理随时间变化的视觉信息，以及不同对象之间的交互关系，仍然缺乏深入的了解。现有的方法主要集中于对单张图像中的对象进行分析，忽略了时空信息的重要性。

核心思路：本文的核心思路是通过构建一个基于电路的框架，来系统地研究LVLMs中时空视觉语义的表示和处理方式。该框架通过模拟电路分析的方法，将LVLMs的内部运作过程分解为不同的功能模块，并分析这些模块之间的信息流动，从而揭示模型如何理解和推理时空信息。通过分析关键神经元和连接，可以识别出负责特定时空语义的神经元子网络。

技术框架：CircuitProbe框架包含三个主要电路：视觉审计电路、语义追踪电路和注意力流电路。视觉审计电路用于识别对模型性能至关重要的视觉tokens。语义追踪电路用于追踪特定语义概念在模型中的传播路径，从而确定负责该概念的神经元。注意力流电路用于分析不同tokens之间的注意力关系，从而理解模型如何利用上下文信息进行推理。整个框架通过对这三个电路的综合分析，来揭示LVLMs中时空语义的表示和处理机制。

关键创新：该论文的关键创新在于提出了一个系统的、基于电路的框架，用于分析LVLMs中的时空视觉语义。与以往的研究主要关注单张图像中的对象不同，该框架能够分析模型如何理解和处理随时间变化的视觉信息，以及不同对象之间的交互关系。此外，该框架还能够识别出负责特定时空语义的神经元子网络，从而为理解LVLMs的内部运作机制提供了新的视角。

关键设计：视觉审计电路通过移除不同的视觉tokens，并观察模型性能的变化，来确定对模型性能至关重要的tokens。语义追踪电路使用因果干预技术，通过改变特定神经元的激活值，并观察模型输出的变化，来确定负责该语义概念的神经元。注意力流电路通过分析不同tokens之间的注意力权重，来理解模型如何利用上下文信息进行推理。具体的技术细节包括：使用梯度积分方法来确定tokens的重要性，使用线性探针来识别负责特定语义概念的神经元，以及使用注意力可视化技术来分析不同tokens之间的注意力关系。

🖼️ 关键图片

📊 实验亮点

实验结果表明，视觉语义高度定位于特定的对象tokens，移除这些tokens会导致模型性能显著下降（高达92.6%）。此外，研究发现LVLMs的中后期层对时空语义具有专门的功能定位，这与以往的研究主要关注单张图像中对象的结果不同。这些发现为LVLMs的时空语义分析提供了重要的机制性见解。

🎯 应用场景

该研究成果可应用于提升LVLMs在视频理解、机器人导航、自动驾驶等领域的性能。通过理解模型如何处理时空信息，可以设计更鲁棒、更可解释的模型，并提高模型在复杂环境中的适应能力。此外，该研究还可以帮助我们更好地理解人类视觉认知机制。

📄 摘要（原文）

The processing mechanisms underlying language and image understanding in large vision-language models (LVLMs) have been extensively studied. However, the internal reasoning mechanisms of LVLMs for spatiotemporal understanding remain poorly understood. In this work, we introduce a systematic, circuit-based framework designed to investigate how spatiotemporal visual semantics are represented and processed within these LVLMs. Specifically, our framework comprises three circuits: visual auditing circuit, semantic tracing circuit, and attention flow circuit. Through the lens of these circuits, we discover that visual semantics are highly localized to specific object tokens--removing these tokens can degrade model performance by up to 92.6%. Furthermore, we identify that interpretable concepts of objects and actions emerge and become progressively refined in the middle-to-late layers of LVLMs. In contrary to the current works that solely focus on objects in one image, we reveal that the middle-to-late layers of LVLMs exhibit specialized functional localization for spatiotemporal semantics. Our findings offer significant mechanistic insights into spatiotemporal semantics analysis of LVLMs, laying a foundation for designing more robust and interpretable models.

CircuitProbe: Dissecting Spatiotemporal Visual Semantics with Circuit Tracing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理