From Heads to Neurons: Causal Attribution and Steering in Multi-Task Vision-Language Models

📄 arXiv: 2604.17941v1 📥 PDF

作者: Qidong Wang, Junjie Hu, Ming Jiang

分类: cs.CV, cs.CL

发布日期: 2026-04-20

备注: ACL 2026 Findings

🔗 代码/项目: GITHUB


💡 一句话要点

HONES:面向多任务视觉-语言模型,实现任务感知的神经元归因与调控

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 神经元归因 神经元调控 多任务学习 可解释性 因果干预 注意力机制

📋 核心要点

  1. 现有神经元分析方法侧重于单任务,忽略了多任务场景下神经元重要性的可比性,且易受神经元多义性影响。
  2. HONES框架通过关注神经元对任务相关注意力头的因果写入贡献,实现了任务感知的神经元重要性排序。
  3. 实验表明,HONES在识别任务关键神经元方面优于现有方法,并且在神经元调控后能够提升模型性能。

📝 摘要(中文)

本文针对视觉-语言模型(VLM)中神经元级别解释的局限性,提出了一种名为HONES(Head-Oriented Neuron Explanation & Steering)的无梯度框架,用于多任务VLM中的任务感知神经元归因和调控。现有神经元分析通常侧重于单个任务,缺乏跨任务的神经元重要性比较。此外,排序策略倾向于孤立地评估神经元,忽略了任务相关信息通路如何影响前馈网络(FFN)神经元的写入效应。这种疏忽会加剧多任务设置中神经元的多义性,从而给任务关键神经元的识别和干预引入噪声。HONES通过神经元对任务相关注意力头的因果写入贡献来对FFN神经元进行排序,并通过轻量级的缩放来进一步调节显著神经元。在四个不同的多模态任务和两个流行的VLM上的实验表明,HONES在识别任务关键神经元方面优于现有方法,并在调控后提高了模型性能。

🔬 方法详解

问题定义:现有视觉-语言模型中的神经元分析方法主要关注单个任务,缺乏跨任务的神经元重要性比较。此外,这些方法通常孤立地评估神经元的重要性,忽略了任务相关信息通路对前馈网络(FFN)神经元的影响,导致神经元多义性问题,影响了任务关键神经元的准确识别和有效干预。

核心思路:HONES的核心思路是通过关注神经元对任务相关注意力头的因果写入贡献来评估神经元的重要性。这种方法考虑了任务相关信息通路的影响,能够更准确地识别对特定任务至关重要的神经元。通过对这些关键神经元进行调控,可以提升模型在特定任务上的性能。

技术框架:HONES框架主要包含两个阶段:神经元归因和神经元调控。在神经元归因阶段,HONES计算每个FFN神经元对任务相关注意力头的因果写入贡献,并根据这些贡献对神经元进行排序。在神经元调控阶段,HONES通过轻量级的缩放操作来调节显著神经元,从而影响模型的输出。整个框架是无梯度的,避免了梯度计算带来的额外开销。

关键创新:HONES的关键创新在于其任务感知的神经元归因方法。与现有方法不同,HONES不是孤立地评估神经元的重要性,而是考虑了神经元对任务相关注意力头的因果写入贡献。这种方法能够更准确地识别对特定任务至关重要的神经元,从而实现更有效的神经元调控。

关键设计:HONES使用因果干预来估计神经元对注意力头的因果写入贡献。具体来说,它通过屏蔽(masking)神经元的输出来模拟神经元的干预,并观察注意力头的输出变化。贡献的大小通过注意力头输出变化的幅度来衡量。在神经元调控阶段,HONES使用一个可学习的缩放因子来调节显著神经元的输出。缩放因子的学习目标是最大化模型在特定任务上的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HONES在四个不同的多模态任务(包括视觉问答、图像描述等)和两个流行的VLM(具体模型名称未知)上均取得了显著的性能提升。与现有神经元分析方法相比,HONES能够更准确地识别任务关键神经元,并在神经元调控后带来更高的模型性能。具体性能提升数据未知,但论文强调了HONES的优越性。

🎯 应用场景

HONES的研究成果可应用于提升多模态模型的任务特定性能,例如在视觉问答、图像描述等任务中,通过识别和调控关键神经元,提高模型对特定问题的理解和回答能力。此外,该方法还可以用于模型的可解释性分析,帮助研究人员理解模型内部的决策过程,并发现模型可能存在的偏差。

📄 摘要(原文)

Recent work has increasingly explored neuron-level interpretation in vision-language models (VLMs) to identify neurons critical to final predictions. However, existing neuron analyses generally focus on single tasks, limiting the comparability of neuron importance across tasks. Moreover, ranking strategies tend to score neurons in isolation, overlooking how task-dependent information pathways shape the write-in effects of feed-forward network (FFN) neurons. This oversight can exacerbate neuron polysemanticity in multi-task settings, introducing noise into the identification and intervention of task-critical neurons. In this study, we propose HONES (Head-Oriented Neuron Explanation & Steering), a gradient-free framework for task-aware neuron attribution and steering in multi-task VLMs. HONES ranks FFN neurons by their causal write-in contributions conditioned on task-relevant attention heads, and further modulates salient neurons via lightweight scaling. Experiments on four diverse multimodal tasks and two popular VLMs show that HONES outperforms existing methods in identifying task-critical neurons and improves model performance after steering. Our source code is released at: https://github.com/petergit1/HONES.