LINE: LLM-based Iterative Neuron Explanations for Vision Models
作者: Vladimir Zaigrajew, Michał Piechota, Gaspar Sekula, Przemysław Biecek
分类: cs.CV, cs.AI, cs.LG
发布日期: 2026-04-09
💡 一句话要点
LINE:基于LLM迭代式神经元解释的视觉模型分析方法
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 神经元解释 可解释性AI 大型语言模型 文本到图像生成 开放词汇 视觉模型 迭代优化
📋 核心要点
- 深度神经网络中单个神经元编码的概念解释对于理解其复杂的决策过程和确保AI安全至关重要,但现有方法通常将搜索空间限制在预定义的词汇表内。
- LINE利用大型语言模型和文本到图像生成器,通过迭代的方式提出和改进概念,从而实现开放词汇的概念标注,无需训练。
- 实验表明,LINE在多个模型架构上取得了SOTA性能,并在ImageNet和Places365数据集上分别实现了显著的AUC提升,同时发现了大量现有词汇表遗漏的新概念。
📝 摘要(中文)
本文提出了一种名为LINE的全新、无需训练的迭代方法,专门用于视觉模型中的开放词汇概念标注。LINE在严格的黑盒设置下运行,利用大型语言模型和文本到图像生成器,在激活历史的指导下,以闭环方式迭代地提出和改进概念。实验结果表明,LINE在多种模型架构上实现了最先进的性能,在ImageNet上AUC提高了0.18,在Places365上AUC提高了0.05,同时平均发现了大规模预定义词汇表中遗漏的29%的新概念。除了识别最佳概念外,LINE还提供了完整的生成历史,从而能够进行多义性评估,并生成可与依赖于梯度的激活最大化方法相媲美的支持性视觉解释。
🔬 方法详解
问题定义:现有神经元解释方法通常依赖于预定义的词汇表,限制了对神经元所代表的复杂、全局概念的理解。此外,现有方法生成的描述可能过于具体,无法捕捉到神经元的高阶语义信息。因此,需要一种能够进行开放词汇概念标注,并且能够发现新概念的方法。
核心思路:LINE的核心思路是利用大型语言模型(LLM)的强大生成能力和文本到图像生成器的可视化能力,通过迭代的方式探索神经元所代表的概念。LLM负责生成候选概念,文本到图像生成器将概念转化为图像,然后根据神经元的激活历史评估生成图像与神经元激活模式的匹配程度,从而指导LLM改进概念。
技术框架:LINE的整体框架是一个闭环迭代过程,主要包含以下几个模块:1) 概念生成:使用LLM根据神经元的激活历史生成候选概念。2) 图像生成:使用文本到图像生成器将候选概念转化为图像。3) 激活评估:根据神经元的激活历史评估生成图像与神经元激活模式的匹配程度。4) 概念优化:根据激活评估的结果,指导LLM改进概念,并重复上述过程。
关键创新:LINE的关键创新在于其迭代式的概念探索方式和对LLM及文本到图像生成器的巧妙利用。与现有方法相比,LINE无需预定义词汇表,能够进行开放词汇的概念标注,并发现新的、更高级别的概念。此外,LINE还提供了完整的生成历史,可以用于评估神经元的多义性。
关键设计:LINE的关键设计包括:1) 使用余弦相似度来衡量生成图像与神经元激活模式的匹配程度。2) 使用LLM的上下文学习能力,通过提供少量示例来指导LLM生成更相关的概念。3) 使用文本到图像生成器的负面提示词来过滤掉不相关的图像。4) 通过控制迭代次数和每次迭代生成的概念数量来平衡探索的广度和深度。
🖼️ 关键图片
📊 实验亮点
LINE在ImageNet和Places365数据集上取得了显著的性能提升,AUC分别提高了0.18和0.05,超越了现有的SOTA方法。更重要的是,LINE平均发现了预定义词汇表中遗漏的29%的新概念,证明了其在开放词汇概念标注方面的优势。此外,LINE生成的视觉解释与梯度依赖的激活最大化方法具有可比性,但无需梯度计算,更加高效。
🎯 应用场景
LINE的应用场景广泛,包括:1) 提升深度神经网络的可解释性,帮助研究人员和工程师理解模型的决策过程。2) 提高AI系统的安全性,通过识别神经元所代表的潜在风险概念,避免模型产生不良行为。3) 辅助模型调试和优化,通过分析神经元的激活模式,发现模型中的潜在问题。4) 促进AI教育和普及,通过可视化的方式展示神经元所代表的概念,帮助公众理解AI技术。
📄 摘要(原文)
Interpreting the concepts encoded by individual neurons in deep neural networks is a crucial step towards understanding their complex decision-making processes and ensuring AI safety. Despite recent progress in neuron labeling, existing methods often limit the search space to predefined concept vocabularies or produce overly specific descriptions that fail to capture higher-order, global concepts. We introduce LINE, a novel, training-free iterative approach tailored for open-vocabulary concept labeling in vision models. Operating in a strictly black-box setting, LINE leverages a large language model and a text-to-image generator to iteratively propose and refine concepts in a closed loop, guided by activation history. We demonstrate that LINE achieves state-of-the-art performance across multiple model architectures, yielding AUC improvements of up to 0.18 on ImageNet and 0.05 on Places365, while discovering, on average, 29% of new concepts missed by massive predefined vocabularies. Beyond identifying the top concept, LINE provides a complete generation history, which enables polysemanticity evaluation and produces supporting visual explanations that rival gradient-dependent activation maximization methods.