Prisma: An Open Source Toolkit for Mechanistic Interpretability in Vision and Video
作者: Sonia Joseph, Praneet Suresh, Lorenz Hufe, Edward Stevinson, Robert Graham, Yash Vadi, Danilo Bzdok, Sebastian Lapuschkin, Lee Sharkey, Blake Aaron Richards
分类: cs.CV, cs.AI, cs.LG
发布日期: 2025-04-28 (更新: 2025-06-03)
备注: 4 pages, 3 figures, 9 tables. Oral and Tutorial at the CVPR Mechanistic Interpretability for Vision (MIV) Workshop
🔗 代码/项目: GITHUB
💡 一句话要点
Prisma:用于视觉和视频领域可解释性的开源工具包
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机制可解释性 视觉Transformer 稀疏自编码器 开源工具包 模型分析
📋 核心要点
- 视觉机制可解释性研究缺乏易用的工具和预训练模型,阻碍了该领域的发展。
- Prisma提供了一个统一的开源框架,包含丰富的视觉和视频Transformer模型、SAE训练工具和预训练权重。
- 实验发现视觉SAE可以比语言SAE表现出更低的稀疏性,并且SAE重建有时可以降低模型损失。
📝 摘要(中文)
为了推动语言模型在机制可解释性方面的进展,健全的工具和公开可用的预训练模型起到了重要作用。然而,视觉机制可解释性方面的类似进展受到了缺乏可访问的框架和预训练权重的阻碍。我们提出了Prisma(代码库:https://github.com/Prisma-Multimodal/ViT-Prisma),这是一个旨在加速视觉机制可解释性研究的开源框架,它提供了一个统一的工具包,用于访问75+个视觉和视频Transformer模型;支持稀疏自编码器(SAE)、转码器(transcoder)和交叉编码器(crosscoder)的训练;一套80+个预训练的SAE权重;激活缓存、电路分析工具和可视化工具;以及教育资源。我们的分析揭示了令人惊讶的发现,包括有效的视觉SAE可以表现出比语言SAE低得多的稀疏性模式,并且在某些情况下,SAE重建可以降低模型损失。Prisma为理解视觉模型内部结构开辟了新的研究方向,同时降低了进入这一新兴领域的门槛。
🔬 方法详解
问题定义:现有的视觉机制可解释性研究缺乏统一的工具和预训练模型,研究人员需要花费大量精力构建基础设施,阻碍了该领域的快速发展。缺乏标准化的工具也使得不同研究之间的结果难以比较和复现。
核心思路:Prisma的核心思路是提供一个开箱即用的开源工具包,包含常用的视觉和视频Transformer模型、稀疏自编码器(SAE)训练工具、预训练权重、激活缓存、电路分析和可视化工具等,从而降低研究门槛,加速视觉机制可解释性研究的进展。
技术框架:Prisma框架主要包含以下几个模块:1) 模型库:提供75+个视觉和视频Transformer模型;2) SAE训练工具:支持稀疏自编码器(SAE)、转码器(transcoder)和交叉编码器(crosscoder)的训练;3) 预训练权重:提供80+个预训练的SAE权重;4) 分析工具:包括激活缓存、电路分析工具和可视化工具;5) 教育资源:提供相关的教程和文档。
关键创新:Prisma的关键创新在于它是一个统一的、全面的开源框架,集成了视觉机制可解释性研究所需的各种工具和资源。它不仅提供了丰富的模型和预训练权重,还提供了SAE训练、电路分析和可视化等功能,极大地简化了研究流程。此外,论文还发现视觉SAE的稀疏性模式与语言SAE不同,并观察到SAE重建可以降低模型损失,这些发现为未来的研究提供了新的方向。
关键设计:Prisma框架的关键设计包括:1) 对各种视觉和视频Transformer模型的统一接口,方便用户访问和使用;2) 灵活的SAE训练工具,支持不同的稀疏性约束和损失函数;3) 高效的激活缓存机制,加速电路分析;4) 可视化工具,帮助用户理解模型的内部结构和行为。具体的参数设置、损失函数和网络结构等细节可以在Prisma的代码库中找到。
🖼️ 关键图片
📊 实验亮点
论文通过Prisma框架进行实验,发现有效的视觉SAE可以表现出比语言SAE低得多的稀疏性模式。更令人惊讶的是,在某些情况下,SAE重建可以降低模型损失。这些发现挑战了人们对SAE的传统认知,并为未来的研究提供了新的思路。
🎯 应用场景
Prisma可应用于各种视觉和视频模型的机制可解释性研究,例如理解模型如何识别物体、进行动作识别等。该工具包可以帮助研究人员发现模型中的偏差和漏洞,从而提高模型的鲁棒性和可靠性。此外,Prisma还可以用于开发更安全、更可信赖的AI系统,并促进人与AI之间的协作。
📄 摘要(原文)
Robust tooling and publicly available pre-trained models have helped drive recent advances in mechanistic interpretability for language models. However, similar progress in vision mechanistic interpretability has been hindered by the lack of accessible frameworks and pre-trained weights. We present Prisma (Access the codebase here: https://github.com/Prisma-Multimodal/ViT-Prisma), an open-source framework designed to accelerate vision mechanistic interpretability research, providing a unified toolkit for accessing 75+ vision and video transformers; support for sparse autoencoder (SAE), transcoder, and crosscoder training; a suite of 80+ pre-trained SAE weights; activation caching, circuit analysis tools, and visualization tools; and educational resources. Our analysis reveals surprising findings, including that effective vision SAEs can exhibit substantially lower sparsity patterns than language SAEs, and that in some instances, SAE reconstructions can decrease model loss. Prisma enables new research directions for understanding vision model internals while lowering barriers to entry in this emerging field.