MRD: Using Physically Based Differentiable Rendering to Probe Vision Models for 3D Scene Understanding
作者: Benjamin Beilharz, Thomas S. A. Wallis
分类: cs.CV, cs.GR
发布日期: 2025-12-13 (更新: 2026-02-05)
备注: 23 pages, 11 figures. Added appendix with more figure results. Code will be available here: https://github.com/ag-perception-wallis-lab/MRD
💡 一句话要点
提出MRD,利用可微渲染探究视觉模型对3D场景的理解能力
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 可微渲染 视觉模型 3D场景理解 模型可解释性 物理渲染
📋 核心要点
- 现有视觉模型缺乏可解释性,难以理解其对3D场景的隐式理解。
- MRD利用可微渲染,通过寻找产生相同模型激活的物理上不同的3D场景参数来探究模型。
- 实验表明,MRD能够重建出与目标场景具有相似模型激活的场景,并揭示模型对不同物理属性的敏感性。
📝 摘要(中文)
深度学习方法在许多视觉基准测试中取得了显著成功,但理解和解释这些模型的表征和决策仍然很困难。虽然视觉模型通常在2D输入上进行训练,但通常假设它们会发展出对底层3D场景的隐式表示(例如,对部分遮挡的容忍度,或推理相对深度的能力)。本文介绍MRD(metamers rendered differentiably),该方法利用基于物理的可微渲染来探究视觉模型对生成式3D场景属性的隐式理解,通过找到在物理上不同但产生相同模型激活的3D场景参数(即模型同色异谱)。与之前基于像素的评估模型表示的方法不同,这些重建结果始终基于物理场景描述。这意味着我们可以探测模型对物体形状的敏感度,同时保持材质和光照不变。作为概念验证,我们评估了多个模型恢复几何形状(形状)和双向反射分布函数(材质)的场景参数的能力。结果表明,目标场景和优化场景之间的模型激活具有高度相似性,但视觉结果各不相同。从定性角度来看,这些重建有助于研究模型敏感或不变的物理场景属性。MRD有望通过分析物理场景参数如何驱动模型响应的变化,从而促进我们对计算机和人类视觉的理解。
🔬 方法详解
问题定义:现有深度学习视觉模型在2D图像上训练,虽然在许多视觉任务上表现出色,但其对底层3D场景的理解能力仍然是一个黑盒。缺乏有效的方法来探究模型是否以及如何学习到3D场景的几何形状、材质、光照等属性,以及模型对这些属性的敏感程度。现有基于像素的方法难以与物理世界建立联系,缺乏可解释性。
核心思路:MRD的核心思路是利用可微渲染技术,构建一个从3D场景参数到2D图像的桥梁。通过优化3D场景参数,使得渲染出的图像在视觉模型中产生与目标图像相似的激活,从而反推出模型对3D场景的隐式理解。这种方法将模型内部的表征与物理世界的属性联系起来,提高了可解释性。
技术框架:MRD的技术框架主要包含以下几个模块:1) 3D场景建模:使用参数化的3D模型表示场景的几何形状、材质和光照等属性。2) 可微渲染:使用基于物理的可微渲染器,将3D场景参数渲染成2D图像。3) 视觉模型:使用预训练的视觉模型提取图像的特征表示。4) 优化器:使用优化算法(如梯度下降)调整3D场景参数,使得渲染图像在视觉模型中的激活与目标图像的激活尽可能接近。
关键创新:MRD的关键创新在于将可微渲染技术应用于视觉模型的可解释性研究。与传统的基于像素的优化方法不同,MRD的优化目标是3D场景参数,这使得结果更具有物理意义和可解释性。此外,MRD能够独立地控制和改变场景的几何形状、材质和光照等属性,从而可以更精细地探究模型对不同属性的敏感程度。
关键设计:MRD的关键设计包括:1) 使用基于物理的渲染器,以保证渲染结果的真实性。2) 选择合适的视觉模型,以保证提取的特征能够反映图像的关键信息。3) 设计合适的损失函数,以衡量渲染图像和目标图像在视觉模型中的激活差异。常用的损失函数包括L2损失和余弦相似度损失。4) 使用合适的优化算法,以保证能够有效地找到最优的3D场景参数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MRD能够成功地重建出与目标场景具有相似模型激活的场景。虽然重建的视觉效果可能存在差异,但模型激活的相似性表明模型对某些物理属性具有不变性。通过控制场景的几何形状和材质,实验揭示了模型对不同属性的敏感程度,例如,某些模型对形状的变化更敏感,而另一些模型对材质的变化更敏感。
🎯 应用场景
MRD可应用于分析和理解计算机视觉模型的内部表征,揭示模型对3D场景属性的敏感性。这有助于改进模型设计,提高模型的鲁棒性和泛化能力。此外,MRD还可用于研究人类视觉系统,通过比较计算机视觉模型和人类视觉系统对同一场景的感知差异,从而深入理解人类视觉的机制。
📄 摘要(原文)
While deep learning methods have achieved impressive success in many vision benchmarks, it remains difficult to understand and explain the representations and decisions of these models. Though vision models are typically trained on 2D inputs, they are often assumed to develop an implicit representation of the underlying 3D scene (for example, showing tolerance to partial occlusion, or the ability to reason about relative depth). Here, we introduce MRD (metamers rendered differentiably), an approach that uses physically based differentiable rendering to probe vision models' implicit understanding of generative 3D scene properties, by finding 3D scene parameters that are physically different but produce the same model activation (i.e. are model metamers). Unlike previous pixel-based methods for evaluating model representations, these reconstruction results are always grounded in physical scene descriptions. This means we can, for example, probe a model's sensitivity to object shape while holding material and lighting constant. As a proof-of-principle, we assess multiple models in their ability to recover scene parameters of geometry (shape) and bidirectional reflectance distribution function (material). The results show high similarity in model activation between target and optimized scenes, with varying visual results. Qualitatively, these reconstructions help investigate the physical scene attributes to which models are sensitive or invariant. MRD holds promise for advancing our understanding of both computer and human vision by enabling analysis of how physical scene parameters drive changes in model responses.