Drive-Through 3D Vehicle Exterior Reconstruction via Dynamic-Scene SfM and Distortion-Aware Gaussian Splatting

📄 arXiv: 2603.26638v1 📥 PDF

作者: Nitin Kulkarni, Akhil Devarashetti, Charlie Cluss, Livio Forte, Philip Schneider, Chunming Qiao, Alina Vereshchaka

分类: cs.CV, cs.RO

发布日期: 2026-03-27

备注: 8 pages, 7 figures, Submitted to IEEE IROS 2026 (under review)


💡 一句话要点

提出一种动态场景下的车辆外观三维重建方法,解决经销商环境下的重建难题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 三维重建 动态场景 车辆建模 高斯溅射 实例分割

📋 核心要点

  1. 现有车辆三维重建方法难以应对经销商动态场景,存在背景杂乱、镜头畸变、车漆反光等挑战。
  2. 该方法结合实例分割、运动门控、学习匹配和高斯溅射,实现对动态车辆外观的高精度重建。
  3. 实验结果表明,该方法在真实场景中显著优于标准3D-GS,无需控制的摄影棚环境。

📝 摘要(中文)

本文提出了一种端到端的流水线方法,用于在杂乱的经销商环境中进行车辆外观的高保真三维重建。该方法利用双摄像头系统,通过结合SAM 3的实例分割和运动门控来隔离动态车辆,并显式地屏蔽非刚性车轮以强制执行严格的对极几何约束。利用语义置信度掩码引导的RoMa v2学习匹配器,直接在原始、失真的4K图像上提取鲁棒的对应关系。这些匹配被整合到利用CAD导出的相对姿态先验的基于相机的SfM优化中,以消除尺度漂移。最后,使用失真感知的3D高斯溅射框架(3DGUT)和随机马尔可夫链蒙特卡罗(MCMC)稠密化策略来渲染反射表面。在10个经销商的25辆真实车辆上的评估表明,该方法在保留视图上实现了28.66 dB的PSNR、0.89的SSIM和0.21的LPIPS,相比标准3D-GS提高了3.85 dB。

🔬 方法详解

问题定义:论文旨在解决在真实的经销商环境中,对动态车辆进行高精度三维重建的问题。现有方法,如静态场景下的摄影测量技术,难以应对动态车辆、杂乱背景、镜头畸变以及车漆反光等挑战,导致重建质量下降甚至失败。特别是车轮的非刚性旋转,违反了传统的对极几何约束,进一步增加了重建难度。

核心思路:论文的核心思路是将动态场景下的三维重建问题分解为多个可控的步骤,并针对每个步骤的难点设计相应的解决方案。通过实例分割和运动门控分离动态车辆,利用学习匹配器提取鲁棒的特征对应关系,并结合失真感知的3D高斯溅射进行高质量渲染。这种模块化的设计使得整个流程更加稳定和高效。

技术框架:整体流程包括以下几个主要阶段:1) 利用双摄像头系统采集图像;2) 使用SAM 3进行实例分割,并通过运动门控分离动态车辆;3) 使用RoMa v2学习匹配器提取特征对应关系;4) 进行基于相机的SfM优化,利用CAD先验消除尺度漂移;5) 使用失真感知的3D高斯溅射进行渲染,并使用MCMC进行稠密化。

关键创新:论文的关键创新在于以下几个方面:1) 提出了一种针对动态场景的车辆分割和运动分离方法;2) 使用学习匹配器直接在原始失真图像上提取鲁棒的特征对应关系;3) 引入CAD先验进行SfM优化,有效抑制尺度漂移;4) 提出了一种失真感知的3D高斯溅射框架,能够更好地处理镜头畸变和车漆反光。

关键设计:在数据处理方面,使用SAM 3进行实例分割,并结合运动门控来精确地分割出车辆。在特征匹配方面,使用RoMa v2学习匹配器,并利用语义置信度掩码来提高匹配的准确性。在SfM优化方面,引入CAD模型提供的相对姿态先验,以约束优化过程,减少尺度漂移。在渲染方面,使用失真感知的3D高斯溅射框架,并结合MCMC进行稠密化,以提高渲染质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在真实经销商场景下,相比于标准3D-GS,在PSNR指标上提升了3.85 dB,达到了28.66 dB,SSIM指标达到了0.89,LPIPS指标降低至0.21。这些数据表明,该方法能够显著提高车辆三维重建的质量,生成更逼真、更准确的模型,无需依赖于受控的摄影棚环境。

🎯 应用场景

该研究成果可应用于在线汽车销售平台,为潜在买家提供高质量的车辆三维模型,增强购买信心。此外,该技术还可用于汽车设计、自动驾驶等领域,例如,可以用于生成高精度的车辆模型,用于仿真测试或训练自动驾驶系统。未来,该技术有望进一步推广到其他动态场景的三维重建任务中。

📄 摘要(原文)

High-fidelity 3D reconstruction of vehicle exteriors improves buyer confidence in online automotive marketplaces, but generating these models in cluttered dealership drive-throughs presents severe technical challenges. Unlike static-scene photogrammetry, this setting features a dynamic vehicle moving against heavily cluttered, static backgrounds. This problem is further compounded by wide-angle lens distortion, specular automotive paint, and non-rigid wheel rotations that violate classical epipolar constraints. We propose an end-to-end pipeline utilizing a two-pillar camera rig. First, we resolve dynamic-scene ambiguities by coupling SAM 3 for instance segmentation with motion-gating to cleanly isolate the moving vehicle, explicitly masking out non-rigid wheels to enforce strict epipolar geometry. Second, we extract robust correspondences directly on raw, distorted 4K imagery using the RoMa v2 learned matcher guided by semantic confidence masks. Third, these matches are integrated into a rig-aware SfM optimization that utilizes CAD-derived relative pose priors to eliminate scale drift. Finally, we use a distortion-aware 3D Gaussian Splatting framework (3DGUT) coupled with a stochastic Markov Chain Monte Carlo (MCMC) densification strategy to render reflective surfaces. Evaluations on 25 real-world vehicles across 10 dealerships demonstrate that our full pipeline achieves a PSNR of 28.66 dB, an SSIM of 0.89, and an LPIPS of 0.21 on held-out views, representing a 3.85 dB improvement over standard 3D-GS, delivering inspection-grade interactive 3D models without controlled studio infrastructure.