Shedding Light on Depth: Explainability Assessment in Monocular Depth Estimation
作者: Lorenzo Cirillo, Claudio Schiavella, Lorenzo Papa, Paolo Russo, Irene Amerini
分类: cs.CV, cs.AI
发布日期: 2025-09-19
备注: 8 pages, 3 figures, 2 tables. This paper has been accepted at the International Joint Conference on Neural Networks (IJCNN) 2025
💡 一句话要点
单目深度估计可解释性研究:通过扰动分析与保真度评估提升模型透明度
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 单目深度估计 可解释性AI 特征归因 显著性图 积分梯度 归因保真度 模型评估 深度学习
📋 核心要点
- 单目深度估计模型缺乏可解释性,限制了其在安全攸关场景中的应用。
- 通过扰动输入像素并分析模型输出变化,评估不同特征归因方法的可信度。
- 提出归因保真度指标,有效识别传统指标失效情况下的不可靠解释。
📝 摘要(中文)
本文深入研究了单目深度估计(MDE)网络的可解释性,旨在理解输入图像到预测深度图的映射过程。尽管MDE已广泛应用于实际场景,但其可解释性仍未得到充分探索。本文针对轻量级网络METER和深度网络PixelFormer,研究了显著性图、积分梯度和注意力Rollout等特征归因方法。通过选择性地扰动由可解释性方法识别出的最相关和最不相关的像素,并分析这些扰动对模型输出的影响,评估了生成的可视化解释的质量。此外,针对现有评估指标在衡量MDE可视化解释有效性方面的局限性,本文提出了一种新的度量标准:归因保真度。该指标通过评估特征归因与预测深度图的一致性来评估其可靠性。实验结果表明,显著性图和积分梯度分别在突出显示轻量级和深度MDE模型的最重要输入特征方面表现良好。此外,本文证明了归因保真度可以有效地识别可解释性方法何时无法生成可靠的可视化图,即使在传统指标可能表明结果令人满意的情况下。
🔬 方法详解
问题定义:单目深度估计(MDE)在众多领域应用广泛,但其决策过程如同黑盒,缺乏透明度。现有方法难以解释模型如何从输入图像推断出深度信息,这阻碍了人们对模型的信任和改进。现有的可解释性评估指标在MDE任务中存在局限性,无法准确反映解释的质量。
核心思路:本文的核心思路是通过分析和评估不同的特征归因方法,揭示MDE模型决策的关键因素。通过扰动输入图像中被认为是重要或不重要的像素,观察模型输出的变化,从而判断解释的有效性。此外,引入新的评估指标“归因保真度”,以更准确地衡量解释与模型预测的一致性。
技术框架:本文的技术框架主要包括三个部分:1) 选择代表性的MDE模型,包括轻量级的METER和深度网络PixelFormer。2) 应用多种特征归因方法,如显著性图、积分梯度和注意力Rollout,生成可视化解释。3) 设计评估策略,包括像素扰动分析和提出的归因保真度指标,以评估可视化解释的质量。
关键创新:本文的关键创新在于提出了归因保真度(Attribution Fidelity)这一新的评估指标。该指标通过计算特征归因与预测深度图之间的相关性,更直接地衡量了解释的可靠性。与传统的像素扰动分析相比,归因保真度能够更有效地识别出那些看似合理但实际上与模型决策不一致的解释。
关键设计:归因保真度的计算方式是:首先,对预测的深度图进行归一化,得到深度概率分布。然后,将特征归因图也进行归一化,得到归因概率分布。最后,计算这两个概率分布之间的余弦相似度。像素扰动分析中,采用逐步遮挡或替换的方式,观察模型输出的均方误差变化。实验中,对比了不同扰动策略(最相关/最不相关像素)和不同归因方法的效果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,显著性图在轻量级模型METER上表现良好,而积分梯度在深度模型PixelFormer上更有效。提出的归因保真度指标能够有效识别传统指标无法发现的不可靠解释。例如,在某些情况下,像素扰动分析显示解释似乎合理,但归因保真度却表明解释与模型预测不一致。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航、三维重建等领域。通过提高单目深度估计模型的可解释性,可以增强人们对模型的信任,促进其在安全攸关场景中的应用。此外,该研究提出的评估方法和指标,可以帮助研究人员更好地理解和改进深度学习模型。
📄 摘要(原文)
Explainable artificial intelligence is increasingly employed to understand the decision-making process of deep learning models and create trustworthiness in their adoption. However, the explainability of Monocular Depth Estimation (MDE) remains largely unexplored despite its wide deployment in real-world applications. In this work, we study how to analyze MDE networks to map the input image to the predicted depth map. More in detail, we investigate well-established feature attribution methods, Saliency Maps, Integrated Gradients, and Attention Rollout on different computationally complex models for MDE: METER, a lightweight network, and PixelFormer, a deep network. We assess the quality of the generated visual explanations by selectively perturbing the most relevant and irrelevant pixels, as identified by the explainability methods, and analyzing the impact of these perturbations on the model's output. Moreover, since existing evaluation metrics can have some limitations in measuring the validity of visual explanations for MDE, we additionally introduce the Attribution Fidelity. This metric evaluates the reliability of the feature attribution by assessing their consistency with the predicted depth map. Experimental results demonstrate that Saliency Maps and Integrated Gradients have good performance in highlighting the most important input features for MDE lightweight and deep models, respectively. Furthermore, we show that Attribution Fidelity effectively identifies whether an explainability method fails to produce reliable visual maps, even in scenarios where conventional metrics might suggest satisfactory results.