Mechanistic understanding and validation of large AI models with SemanticLens

📄 arXiv: 2501.05398v1 📥 PDF

作者: Maximilian Dreyer, Jim Berend, Tobias Labarta, Johanna Vielhaben, Thomas Wiegand, Sebastian Lapuschkin, Wojciech Samek

分类: cs.LG, cs.AI

发布日期: 2025-01-09

备注: 74 pages (18 pages manuscript, 7 pages references, 49 pages appendix)

🔗 代码/项目: GITHUB


💡 一句话要点

SemanticLens:利用语义空间理解和验证大型AI模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 可解释性AI 神经网络验证 语义理解 多模态学习 模型审计

📋 核心要点

  1. 现有AI模型内部机制不透明,导致可验证性差,难以信任,阻碍了AI的广泛应用。
  2. SemanticLens将神经网络组件映射到语义空间,实现对模型内部知识的理解和验证。
  3. SemanticLens无需人工干预,可用于调试、验证、总结模型知识,并检测虚假相关性。

📝 摘要(中文)

与飞机等人类设计的系统不同,AI模型的内部运作机制在很大程度上是不透明的,这阻碍了可验证性并削弱了信任。本文介绍了一种通用的神经网络解释方法SemanticLens,它将组件(例如,单个神经元)编码的隐藏知识映射到基础模型(如CLIP)的语义结构化多模态空间中。在这个空间中,可以进行独特的操作,包括(i)文本搜索以识别编码特定概念的神经元,(ii)系统地分析和比较模型表示,(iii)自动标记神经元并解释其功能角色,以及(iv)审计以根据需求验证决策。SemanticLens完全可扩展且无需人工输入,已被证明可有效地用于调试和验证、总结模型知识、使推理与期望保持一致(例如,在黑色素瘤分类中遵守ABCDE规则),以及检测与虚假相关性相关的组件及其相关的训练数据。通过实现组件级别的理解和验证,该方法有助于弥合AI模型与传统工程系统之间的“信任鸿沟”。

🔬 方法详解

问题定义:现有AI模型,特别是大型神经网络,其内部运作机制复杂且难以理解,导致模型的可解释性差,难以验证其决策过程的合理性与可靠性。这使得人们难以信任AI模型,阻碍了其在关键领域的应用。现有方法通常依赖于对输入输出的分析,难以深入理解模型内部组件的作用和相互关系。

核心思路:SemanticLens的核心思想是将神经网络的内部组件(例如神经元)所编码的知识映射到一个语义结构化的多模态空间中。通过将神经元的激活模式与语义概念联系起来,可以理解神经元的功能和作用,从而实现对模型内部运作机制的理解。这种方法借鉴了基础模型(如CLIP)强大的语义表示能力,将模型内部的抽象表示与人类可理解的语义概念联系起来。

技术框架:SemanticLens主要包含以下几个阶段:1) 表示提取:提取神经网络中各个组件(如神经元)的激活向量。2) 语义映射:将激活向量映射到语义空间,例如使用CLIP等预训练模型将激活向量与文本描述或图像关联起来。3) 知识发现:在语义空间中进行搜索、分析和比较,以识别编码特定概念的神经元,并理解它们的功能角色。4) 验证与审计:根据预定义的规则或期望,验证模型的决策过程,并检测与虚假相关性相关的组件。

关键创新:SemanticLens的关键创新在于其将神经网络的内部表示与语义空间联系起来,从而实现了对模型内部知识的理解和验证。与传统的解释方法相比,SemanticLens能够提供更细粒度的解释,可以理解单个神经元的功能和作用。此外,SemanticLens无需人工干预,可以自动地分析和验证模型。

关键设计:SemanticLens的关键设计包括:1) 使用预训练的基础模型(如CLIP)作为语义空间的基准,利用其强大的语义表示能力。2) 设计有效的映射方法,将神经元的激活向量映射到语义空间。3) 开发用于在语义空间中进行搜索、分析和比较的工具和算法。4) 定义明确的验证规则和指标,用于评估模型的决策过程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SemanticLens在多个实验中表现出色。例如,在黑色素瘤分类任务中,SemanticLens能够识别出编码ABCDE规则(一种用于诊断黑色素瘤的规则)的神经元,并验证模型是否遵循该规则。此外,SemanticLens还能够检测到与虚假相关性相关的组件,并识别出相关的训练数据。实验结果表明,SemanticLens能够有效地提高模型的可解释性和可验证性。

🎯 应用场景

SemanticLens可应用于多个领域,包括医疗诊断、金融风控、自动驾驶等。它可以帮助医生验证AI模型在疾病诊断中的决策依据,提高诊断的准确性和可靠性。在金融领域,可以用于审计AI模型在信贷评估中的决策过程,防止歧视和不公平现象。在自动驾驶领域,可以用于验证AI模型在感知和决策方面的安全性。

📄 摘要(原文)

Unlike human-engineered systems such as aeroplanes, where each component's role and dependencies are well understood, the inner workings of AI models remain largely opaque, hindering verifiability and undermining trust. This paper introduces SemanticLens, a universal explanation method for neural networks that maps hidden knowledge encoded by components (e.g., individual neurons) into the semantically structured, multimodal space of a foundation model such as CLIP. In this space, unique operations become possible, including (i) textual search to identify neurons encoding specific concepts, (ii) systematic analysis and comparison of model representations, (iii) automated labelling of neurons and explanation of their functional roles, and (iv) audits to validate decision-making against requirements. Fully scalable and operating without human input, SemanticLens is shown to be effective for debugging and validation, summarizing model knowledge, aligning reasoning with expectations (e.g., adherence to the ABCDE-rule in melanoma classification), and detecting components tied to spurious correlations and their associated training data. By enabling component-level understanding and validation, the proposed approach helps bridge the "trust gap" between AI models and traditional engineered systems. We provide code for SemanticLens on https://github.com/jim-berend/semanticlens and a demo on https://semanticlens.hhi-research-insights.eu.