Diffusion-CAM: Faithful Visual Explanations for dMLLMs
作者: Haomin Zuo, Yidi Li, Luoxiao Yang, Xiaofeng Zhang
分类: cs.AI
发布日期: 2026-04-13
备注: Accepted by ACL 2026 main conference
💡 一句话要点
提出Diffusion-CAM,为扩散多模态大语言模型提供可靠的可视化解释。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散模型 多模态大语言模型 可解释性 类激活映射 可视化解释
📋 核心要点
- 现有CAM方法难以解释dMLLMs的非自回归行为,因为dMLLMs的激活模式是平滑且分布式的。
- Diffusion-CAM通过可微分地探测Transformer骨干网络中的中间表示,捕获潜在特征和类特定梯度。
- 实验表明,Diffusion-CAM在定位精度和视觉保真度方面显著优于现有方法,为dMLLMs的可解释性提供了新标准。
📝 摘要(中文)
扩散多模态大语言模型(dMLLMs)在多模态生成方面取得了显著进展,但可解释性机制的发展滞后于其架构演进。与产生序列激活的传统自回归模型不同,基于扩散的架构通过并行去噪生成token,导致整个序列中出现平滑、分布式的激活模式。因此,专为局部、序列依赖性设计的现有类激活映射(CAM)方法不适合解释这些非自回归行为。为了弥合这一差距,我们提出了Diffusion-CAM,这是第一个专门为dMLLMs量身定制的可解释性方法。我们通过可微分地探测Transformer骨干网络中的中间表示来导出原始激活图,从而相应地捕获潜在特征及其类特定的梯度。为了解决这些原始信号固有的随机性,我们结合了四个关键模块来解决空间模糊性,并减轻图像内的混淆因素和冗余的token相关性。大量实验表明,Diffusion-CAM在定位精度和视觉保真度方面显著优于SoTA方法,为理解扩散多模态系统的并行生成过程建立了一个新标准。
🔬 方法详解
问题定义:论文旨在解决扩散多模态大语言模型(dMLLMs)缺乏有效可解释性方法的问题。现有的类激活映射(CAM)方法主要针对自回归模型设计,无法有效解释dMLLMs中并行去噪过程产生的平滑、分布式的激活模式。这些方法无法准确捕捉dMLLMs中token之间的复杂关系,导致解释结果不准确或不忠实。
核心思路:Diffusion-CAM的核心思路是通过可微分地探测dMLLMs的Transformer骨干网络中的中间表示,提取原始激活图,并结合多个模块来解决原始信号的随机性和模糊性。该方法旨在捕捉潜在特征及其类特定的梯度,从而提供更准确、更忠实的可视化解释。通过解决空间模糊性、减轻图像内的混淆因素和冗余的token相关性,Diffusion-CAM能够更好地反映dMLLMs的并行生成过程。
技术框架:Diffusion-CAM的技术框架主要包括以下几个阶段:1) 原始激活图提取:通过可微分地探测Transformer骨干网络中的中间表示,提取原始激活图,捕捉潜在特征和类特定梯度。2) 空间模糊性解决:使用特定模块来减少激活图中的空间模糊性,提高定位精度。3) 图像内混淆因素缓解:采用策略来减轻图像内不同对象或区域之间的混淆,确保激活图更关注目标对象。4) 冗余token相关性消除:通过模块来消除冗余的token相关性,减少噪声,提高解释的清晰度。
关键创新:Diffusion-CAM的关键创新在于它是第一个专门为扩散多模态大语言模型(dMLLMs)量身定制的可解释性方法。与传统的CAM方法不同,Diffusion-CAM能够有效地处理dMLLMs中并行去噪过程产生的平滑、分布式的激活模式。此外,Diffusion-CAM通过结合多个模块来解决原始信号的随机性和模糊性,从而提供更准确、更忠实的可视化解释。
关键设计:论文中没有详细说明关键参数设置、损失函数和网络结构的具体技术细节。但是,可以推断出,空间模糊性解决、图像内混淆因素缓解和冗余token相关性消除模块的设计是关键。这些模块可能涉及到特定的卷积核大小、激活函数、注意力机制或其他网络结构,以实现最佳的解释效果。损失函数可能涉及到最大化目标区域的激活值,同时最小化非目标区域的激活值,以提高定位精度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Diffusion-CAM在定位精度和视觉保真度方面显著优于现有方法。具体来说,Diffusion-CAM在多个数据集上取得了更高的定位分数和更清晰的可视化解释。这些结果表明,Diffusion-CAM能够更准确地反映dMLLMs的决策过程,为理解和信任AI系统提供了有力支持。
🎯 应用场景
Diffusion-CAM可应用于多种领域,例如医学影像诊断、自动驾驶、智能监控等。通过提供对dMLLMs决策过程的可视化解释,可以提高模型的可信度和透明度,帮助用户更好地理解和信任AI系统。此外,Diffusion-CAM还可以用于调试和优化dMLLMs,发现模型中的潜在问题,并改进模型的设计。
📄 摘要(原文)
While diffusion Multimodal Large Language Models (dMLLMs) have recently achieved remarkable strides in multimodal generation, the development of interpretability mechanisms has lagged behind their architectural evolution. Unlike traditional autoregressive models that produce sequential activations, diffusion-based architectures generate tokens via parallel denoising, resulting in smooth, distributed activation patterns across the entire sequence. Consequently, existing Class Activation Mapping (CAM) methods, which are tailored for local, sequential dependencies, are ill-suited for interpreting these non-autoregressive behaviors. To bridge this gap, we propose Diffusion-CAM, the first interpretability method specifically tailored for dMLLMs. We derive raw activation maps by differentiably probing intermediate representations in the transformer backbone, accordingly capturing both latent features and their class-specific gradients. To address the inherent stochasticity of these raw signals, we incorporate four key modules to resolve spatial ambiguity and mitigate intra-image confounders and redundant token correlations. Extensive experiments demonstrate that Diffusion-CAM significantly outperforms SoTA methods in both localization accuracy and visual fidelity, establishing a new standard for understanding the parallel generation process of diffusion multimodal systems.