Diffusion Knows Transparency: Repurposing Video Diffusion for Transparent Object Depth and Normal Estimation

📄 arXiv: 2512.23705v1 📥 PDF

作者: Shaocong Xu, Songlin Wei, Qizhe Wei, Zheng Geng, Hong Li, Licheng Shen, Qianpu Sun, Shu Han, Bin Ma, Bohan Li, Chongjie Ye, Yuhang Zheng, Nan Wang, Saining Zhang, Hao Zhao

分类: cs.CV

发布日期: 2025-12-29

备注: Project Page: https://daniellli.github.io/projects/DKT/; Code: https://github.com/Daniellli/DKT; Dataset: https://huggingface.co/datasets/Daniellesry/TransPhy3D


💡 一句话要点

利用视频扩散模型,DKT实现了透明物体深度和法向量的零样本SOTA估计

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 透明物体感知 深度估计 法向量估计 视频扩散模型 零样本学习

📋 核心要点

  1. 现有方法在透明物体深度估计方面面临挑战,如折射、反射导致估计不准确和时序不稳定。
  2. 论文利用视频扩散模型已具备的透明现象合成能力,通过微调使其具备深度和法向量估计能力。
  3. 实验表明,该方法在多个数据集上实现了零样本SOTA,并在真实场景抓取任务中提升了成功率。

📝 摘要(中文)

透明物体对感知系统来说一直是个难题,折射、反射和透射破坏了立体视觉、飞行时间和纯粹判别式单目深度的假设,导致空洞和时间不稳定的估计。我们的关键观察是,现代视频扩散模型已经合成了令人信服的透明现象,这表明它们已经内化了光学规则。我们构建了TransPhy3D,一个透明/反射场景的合成视频语料库:使用Blender/Cycles渲染的1.1万个序列。场景由精选的、类别丰富的静态资产和形状丰富的程序资产与玻璃/塑料/金属材料配对组成。我们使用基于物理的光线追踪和OptiX去噪渲染RGB+深度+法线。从一个大型视频扩散模型开始,我们通过轻量级的LoRA适配器学习深度(和法线)的视频到视频的转换器。在训练过程中,我们将RGB和(噪声)深度潜在变量连接在DiT骨干网络中,并在TransPhy3D和现有的逐帧合成数据集上进行联合训练,从而为任意长度的输入视频产生时间一致的预测。由此产生的模型DKT在涉及透明度的真实和合成视频基准测试中实现了零样本SOTA:ClearPose、DREDS(CatKnown/CatNovel)和TransPhy3D-Test。它提高了图像/视频基线的准确性和时间一致性,并且法线变体在ClearPose上设置了最佳视频法线估计结果。一个紧凑的1.3B版本以约0.17秒/帧的速度运行。集成到抓取堆栈中,DKT的深度提高了半透明、反射和漫反射表面的成功率,优于先前的估计器。总之,这些结果支持一个更广泛的说法:“扩散知道透明度。”生成视频先验可以被重新利用,高效且无标签地转化为鲁棒的、时间连贯的感知,用于具有挑战性的真实世界操作。

🔬 方法详解

问题定义:论文旨在解决透明和反射物体深度和法向量估计的难题。现有方法,如立体视觉、ToF传感器和单目深度估计,在处理透明物体时会因折射、反射等现象而失效,导致深度估计出现空洞和时间上的不稳定性。

核心思路:论文的核心思路是利用视频扩散模型已经学习到的对透明现象的先验知识。作者认为,高质量的视频扩散模型能够生成逼真的透明效果,这表明它们已经隐式地学习了相关的光学规则。因此,可以通过微调这些模型,使其能够预测透明物体的深度和法向量。

技术框架:论文提出的方法TransPhy3D包含以下几个主要步骤:1) 构建大规模合成数据集TransPhy3D,包含透明和反射场景的RGB、深度和法向量数据。2) 基于预训练的视频扩散模型,使用LoRA适配器学习视频到视频的转换,将输入视频转换为深度和法向量图。3) 在TransPhy3D和现有数据集上进行联合训练,提高模型的泛化能力和时间一致性。

关键创新:论文的关键创新在于将视频扩散模型应用于透明物体的深度和法向量估计。与传统的基于几何或物理的方法不同,该方法利用了扩散模型强大的生成能力和对透明现象的先验知识,实现了零样本的SOTA性能。

关键设计:论文的关键设计包括:1) 使用DiT作为骨干网络,并采用LoRA适配器进行微调,以降低计算成本。2) 将RGB和噪声深度潜在变量连接在DiT骨干网络中,实现联合训练。3) 构建了大规模合成数据集TransPhy3D,为模型的训练提供了充足的数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DKT模型在ClearPose、DREDS和TransPhy3D-Test等数据集上实现了零样本SOTA性能,显著提高了透明物体深度和法向量估计的准确性和时间一致性。此外,DKT模型在机器人抓取实验中,提高了对半透明、反射和漫反射表面的抓取成功率,优于先前的深度估计方法。

🎯 应用场景

该研究成果可应用于机器人抓取、自动驾驶、增强现实等领域。在机器人抓取中,准确的深度信息可以帮助机器人更好地识别和抓取透明或反光物体。在自动驾驶中,可以提高对透明障碍物(如玻璃幕墙)的感知能力。在增强现实中,可以实现更逼真的虚拟物体与真实环境的融合。

📄 摘要(原文)

Transparent objects remain notoriously hard for perception systems: refraction, reflection and transmission break the assumptions behind stereo, ToF and purely discriminative monocular depth, causing holes and temporally unstable estimates. Our key observation is that modern video diffusion models already synthesize convincing transparent phenomena, suggesting they have internalized the optical rules. We build TransPhy3D, a synthetic video corpus of transparent/reflective scenes: 11k sequences rendered with Blender/Cycles. Scenes are assembled from a curated bank of category-rich static assets and shape-rich procedural assets paired with glass/plastic/metal materials. We render RGB + depth + normals with physically based ray tracing and OptiX denoising. Starting from a large video diffusion model, we learn a video-to-video translator for depth (and normals) via lightweight LoRA adapters. During training we concatenate RGB and (noisy) depth latents in the DiT backbone and co-train on TransPhy3D and existing frame-wise synthetic datasets, yielding temporally consistent predictions for arbitrary-length input videos. The resulting model, DKT, achieves zero-shot SOTA on real and synthetic video benchmarks involving transparency: ClearPose, DREDS (CatKnown/CatNovel), and TransPhy3D-Test. It improves accuracy and temporal consistency over strong image/video baselines, and a normal variant sets the best video normal estimation results on ClearPose. A compact 1.3B version runs at ~0.17 s/frame. Integrated into a grasping stack, DKT's depth boosts success rates across translucent, reflective and diffuse surfaces, outperforming prior estimators. Together, these results support a broader claim: "Diffusion knows transparency." Generative video priors can be repurposed, efficiently and label-free, into robust, temporally coherent perception for challenging real-world manipulation.