Insights into a radiology-specialised multimodal large language model with sparse autoencoders

📄 arXiv: 2507.12950v2 📥 PDF

作者: Kenza Bouzid, Shruthi Bannur, Felix Meissen, Daniel Coelho de Castro, Anton Schwaighofer, Javier Alvarez-Valle, Stephanie L. Hyland

分类: cs.LG

发布日期: 2025-07-17 (更新: 2025-07-18)

备注: Actionable Interpretability Workshop at ICML 2025. 24 pages, 7 figures, 5 tables

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

利用稀疏自编码器解析放射学多模态大语言模型MAIRA-2的内部机制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 可解释性AI 多模态学习 放射学 稀疏自编码器 大语言模型 医疗AI 机制理解

📋 核心要点

  1. AI模型在医疗领域的应用需要高度的可解释性,以确保安全性和透明度,但现有方法难以有效解析大型语言模型的内部机制。
  2. 该研究利用Matryoshka-SAE方法,对放射学专用多模态大语言模型MAIRA-2进行解析,旨在揭示其内部学习到的临床相关概念。
  3. 通过steering实验,验证了识别出的特征对模型生成行为的影响,初步揭示了MAIRA-2的内部工作机制,为模型透明度提升奠定基础。

📝 摘要(中文)

可解释性能够提升AI模型的安全性、透明度和可信度,这在医疗保健应用中尤为重要,因为相关决策往往会产生重大影响。机制可解释性,特别是通过使用稀疏自编码器(SAE),为揭示基于大型Transformer模型的内部人类可解释特征提供了一种有前景的方法。在本研究中,我们将Matryoshka-SAE应用于放射学专业的多模态大语言模型MAIRA-2,以解释其内部表示。通过对SAE特征的大规模自动化可解释性分析,我们识别出了一系列临床相关的概念,包括医疗设备(如导管和管路放置、起搏器存在)、病理(如胸腔积液和心脏肥大)、纵向变化和文本特征。我们还通过steering方法检验了这些特征对模型行为的影响,在生成方面实现了不同程度的方向性控制。我们的结果揭示了实践和方法上的挑战,但为理解MAIRA-2学习到的内部概念提供了初步见解,标志着朝着更深入地机制理解和解释放射学多模态大语言模型迈出了一步,并为提高模型透明度铺平了道路。我们发布了训练好的SAE和解释:https://huggingface.co/microsoft/maira-2-sae。

🔬 方法详解

问题定义:论文旨在解决放射学多模态大语言模型(如MAIRA-2)的可解释性问题。现有方法难以有效理解这类复杂模型的内部表征,导致模型决策过程不透明,限制了其在医疗领域的安全应用。现有方法缺乏对模型内部概念的细粒度理解,难以进行有效的干预和控制。

核心思路:论文的核心思路是利用稀疏自编码器(SAE)来提取MAIRA-2模型内部的、人类可解释的特征。通过训练SAE来重构模型的内部激活,从而识别出对模型行为有重要影响的稀疏特征。这些特征被认为是模型学习到的临床相关概念的表示。

技术框架:整体框架包括以下几个主要步骤:1) 使用Matryoshka-SAE训练SAE,以从MAIRA-2的Transformer层中提取特征。2) 对SAE提取的特征进行大规模自动化解释,识别临床相关的概念,如医疗设备、病理和纵向变化。3) 使用steering方法,通过激活或抑制特定SAE特征来控制模型的生成行为。4) 分析steering实验的结果,评估SAE特征对模型行为的影响。

关键创新:该研究的关键创新在于将Matryoshka-SAE应用于放射学专用多模态大语言模型MAIRA-2,并结合大规模自动化解释和steering方法,实现了对模型内部概念的初步理解。与传统的可解释性方法相比,该方法能够更细粒度地揭示模型学习到的临床相关知识,并探索这些知识对模型行为的影响。

关键设计:Matryoshka-SAE是一种特殊的SAE,它允许在不同的稀疏度级别上训练SAE,从而提取不同粒度的特征。steering实验通过调整SAE特征的激活强度来控制模型的生成行为,例如,通过激活“胸腔积液”特征来促使模型生成包含胸腔积液的报告。具体的损失函数和网络结构细节在论文中未详细说明,可能参考了Matryoshka-SAE的原始论文。

🖼️ 关键图片

img_0

📊 实验亮点

研究成功地利用Matryoshka-SAE从MAIRA-2中提取出了一系列临床相关的概念,包括医疗设备、病理和纵向变化。通过steering实验,初步验证了这些特征对模型生成行为的影响,例如,通过激活特定SAE特征,可以影响模型生成的报告内容。虽然steering的成功程度不一,但结果表明SAE特征确实能够影响模型的行为。

🎯 应用场景

该研究成果可应用于提升放射学AI模型的透明度和可信度,辅助医生进行诊断和治疗决策。通过理解模型内部的临床概念,可以更好地评估模型的风险和局限性,并进行针对性的改进。未来,该方法有望推广到其他医疗AI模型,促进医疗AI的负责任发展。

📄 摘要(原文)

Interpretability can improve the safety, transparency and trust of AI models, which is especially important in healthcare applications where decisions often carry significant consequences. Mechanistic interpretability, particularly through the use of sparse autoencoders (SAEs), offers a promising approach for uncovering human-interpretable features within large transformer-based models. In this study, we apply Matryoshka-SAE to the radiology-specialised multimodal large language model, MAIRA-2, to interpret its internal representations. Using large-scale automated interpretability of the SAE features, we identify a range of clinically relevant concepts - including medical devices (e.g., line and tube placements, pacemaker presence), pathologies such as pleural effusion and cardiomegaly, longitudinal changes and textual features. We further examine the influence of these features on model behaviour through steering, demonstrating directional control over generations with mixed success. Our results reveal practical and methodological challenges, yet they offer initial insights into the internal concepts learned by MAIRA-2 - marking a step toward deeper mechanistic understanding and interpretability of a radiology-adapted multimodal large language model, and paving the way for improved model transparency. We release the trained SAEs and interpretations: https://huggingface.co/microsoft/maira-2-sae.