Causal Probing for Internal Visual Representations in Multimodal Large Language Models
作者: Zehao Deng, Tianjie Ju, Zheng Wu, Liangbo He, Jun Lan, Huijia Zhu, Weiqiang Wang, Zhuosheng Zhang
分类: cs.AI
发布日期: 2026-05-07
💡 一句话要点
提出基于因果干预的探测框架,揭示多模态大模型内部视觉表征的编码机制与缩放规律
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大模型 因果探测 模型可解释性 视觉表征 激活引导 缩放定律 视觉推理
📋 核心要点
- 现有MLLMs内部视觉概念的编码与接地机制缺乏透明度,导致模型在处理复杂抽象概念时存在“黑盒”问题。
- 提出基于激活引导的因果探测框架,通过对模型内部激活值进行主动干预,系统性地解构视觉概念的表征方式。
- 实验揭示了实体与抽象概念在表征分布上的本质差异,并阐明了模型深度对复杂推理能力提升的内在机制。
📝 摘要(中文)
尽管多模态大语言模型(MLLMs)在各类任务中表现卓越,但其内部如何编码和定位视觉概念的机制尚不明确。为填补这一空白,本文提出了一种基于激活引导(activation steering)的因果探测框架,旨在主动探测并操纵内部视觉表征。通过对四类视觉概念进行系统性干预,研究发现概念编码存在显著差异:实体表现为局部化的记忆,而抽象概念则在网络中呈现全局分布。这一发现揭示了缩放定律(scaling laws)的机制驱动力:增加模型深度对于编码分布式的复杂抽象概念至关重要,而实体定位对规模变化保持高度不变。此外,反向引导实验揭示了感知与生成之间的补偿机制。最后,在视觉推理任务中,研究发现模型虽能识别几何关系,但仅将其视为静态视觉特征,未能触发抽象问题解决所需的程序化执行过程。
🔬 方法详解
问题定义:论文旨在解决MLLMs内部视觉概念表征的“黑盒”问题,特别是区分实体(如物体)与抽象概念(如空间关系、逻辑)在神经网络内部的存储与处理方式,以及模型规模如何影响这些表征。
核心思路:采用因果干预(Causal Intervention)范式,通过“激活引导”技术,在模型推理过程中主动修改特定层或神经元的激活值,观察输出结果的变化,从而建立视觉概念与内部表征之间的因果关联。
技术框架:框架包含概念提取、激活干预、输出评估三个阶段。首先定义四类视觉概念,通过探测器定位相关激活空间;随后在推理过程中注入干预向量(Steering Vectors),改变特定概念的表征强度;最后通过对比干预前后的输出差异,量化概念的编码位置与分布特性。
关键创新:首次通过因果干预手段量化了视觉概念的“局部化”与“分布式”属性,并从机制层面解释了为何增加模型深度能提升抽象推理能力,同时发现了感知与生成之间的补偿性交互机制。
关键设计:利用激活引导技术(Activation Steering)作为核心工具,通过在推理路径中添加可学习或预定义的偏移量,实现对特定视觉概念表征的精确操纵,并结合反向引导(Reverse Steering)技术探测模型内部的补偿性抑制效应。
🖼️ 关键图片
📊 实验亮点
实验通过对四类视觉概念的干预,证实了实体表征具有局部化特征,而抽象概念呈全局分布。研究发现模型深度是处理复杂抽象概念的关键,而实体定位对规模不敏感。此外,实验揭示了模型在处理几何关系时存在“感知与推理脱节”现象,即模型仅将关系识别为静态特征,缺乏程序化执行能力,为后续改进推理架构提供了明确方向。
🎯 应用场景
该研究为多模态大模型的模型可解释性(Interpretability)提供了理论基础,有助于开发更具鲁棒性的视觉推理系统。其研究成果可直接应用于模型剪枝、知识编辑以及针对特定视觉概念的微调优化,对于提升自动驾驶、机器人视觉导航等需要高精度空间推理的领域具有重要参考价值。
📄 摘要(原文)
Despite the remarkable success of Multimodal Large Language Models (MLLMs) across diverse tasks, the internal mechanisms governing how they encode and ground distinct visual concepts remain poorly understood. To bridge this gap, we propose a causal framework based on activation steering to actively probe and manipulate internal visual representations. Through systematic intervention across four visual concept categories, our results reveal a divergence in concept encoding: entities exhibit distinct localized memorization, whereas abstract concepts are globally distributed across the network. Critically, this divergence uncovers a mechanistic driver of scaling laws: increasing model depth is indispensable for encoding distributed and complex abstract concepts, whereas entity localization remains remarkably invariant to scale. Furthermore, reverse steering uncovers that blocking explicit output triggers a surge in latent activations, exposing a compensatory mechanism between perception and generation. Finally, extending our analysis to visual reasoning, we expose a disconnect between perception and reasoning although MLLMs successfully recognize geometric relations, they treat them merely as static visual features, failing to trigger the procedural execution necessary for abstract problem-solving.