IDSplat: Instance-Decomposed 3D Gaussian Splatting for Driving Scenes
作者: Carl Lindström, Mahan Rafidashti, Maryam Fatemi, Lars Hammarstrand, Martin R. Oswald, Lennart Svensson
分类: cs.CV
发布日期: 2025-11-24
💡 一句话要点
IDSplat:面向自动驾驶场景的实例分解3D高斯溅射重建
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)
关键词: 3D高斯溅射 动态场景重建 实例分解 自监督学习 自动驾驶 运动轨迹估计 零样本学习
📋 核心要点
- 现有动态驾驶场景重建方法依赖昂贵的人工标注或缺乏对象级分解,阻碍了场景分离。
- IDSplat将动态对象建模为刚性变换的连贯实例,利用零样本视频跟踪和特征对应估计一致姿态。
- 实验表明,IDSplat在Waymo数据集上实现了有竞争力的重建质量,并具有良好的泛化能力。
📝 摘要(中文)
本文提出IDSplat,一个自监督的3D高斯溅射框架,用于重建具有显式实例分解和可学习运动轨迹的动态驾驶场景,无需人工标注。核心思想是将动态对象建模为经历刚性变换的连贯实例,而非非结构化的时变图元。为了进行实例分解,我们采用基于语言的零样本视频跟踪,并使用激光雷达将其锚定到3D空间,并通过特征对应估计一致的姿态。我们引入了协调转弯平滑方案,以获得时间上和物理上一致的运动轨迹,从而减轻姿态错位和跟踪失败,然后联合优化对象姿态和高斯参数。在Waymo开放数据集上的实验表明,我们的方法在保持实例级分解的同时实现了具有竞争力的重建质量,并且无需重新训练即可推广到不同的序列和视图密度,使其适用于大规模自动驾驶应用。
🔬 方法详解
问题定义:现有动态驾驶场景重建方法主要存在两个痛点:一是依赖人工标注对象轨迹,成本高昂;二是缺乏显式的对象级分解,导致静态和动态元素相互交织,难以进行场景分离和编辑。因此,需要一种能够自动进行实例分解,并学习对象运动轨迹的方法,从而实现更灵活和可控的动态场景重建。
核心思路:IDSplat的核心思路是将动态场景中的每个对象视为一个独立的实例,并假设这些实例在场景中进行刚性运动。通过对每个实例进行建模和跟踪,可以实现场景的显式分解,并学习到每个对象的运动轨迹。这种基于实例的建模方法能够更好地捕捉场景的动态特性,并避免静态和动态元素的混淆。
技术框架:IDSplat的整体框架包括以下几个主要阶段:1) 实例分解:利用零样本、基于语言的视频跟踪方法,将场景中的对象分解为独立的实例,并使用激光雷达数据将这些实例锚定到3D空间。2) 姿态估计:通过特征对应的方法,估计每个实例在不同时刻的姿态。3) 运动轨迹平滑:引入协调转弯平滑方案,对估计的姿态进行平滑处理,以获得时间上和物理上一致的运动轨迹。4) 联合优化:联合优化对象姿态和高斯参数,从而实现场景的重建。
关键创新:IDSplat的关键创新在于其自监督的实例分解方法和运动轨迹平滑方案。传统的动态场景重建方法通常需要人工标注对象轨迹,而IDSplat通过零样本视频跟踪和特征对应的方法,实现了自动的实例分解和姿态估计。此外,协调转弯平滑方案能够有效地缓解姿态错位和跟踪失败的问题,从而获得更准确的运动轨迹。
关键设计:IDSplat的关键设计包括:1) 使用预训练的CLIP模型进行零样本视频跟踪,以实现实例分解。2) 使用RANSAC算法进行特征对应,以估计对象姿态。3) 引入协调转弯模型,对运动轨迹进行平滑处理。4) 使用3D高斯溅射作为场景表示,并联合优化高斯参数和对象姿态。
📊 实验亮点
IDSplat在Waymo开放数据集上进行了评估,实验结果表明,该方法在保持实例级分解的同时,实现了具有竞争力的重建质量。与现有方法相比,IDSplat无需人工标注,并且能够推广到不同的序列和视图密度,具有良好的泛化能力。实验结果验证了IDSplat在动态驾驶场景重建方面的有效性和实用性。
🎯 应用场景
IDSplat在自动驾驶领域具有广泛的应用前景。它可以用于生成传感器逼真的模拟环境,从而加速自动驾驶算法的开发和测试。此外,IDSplat还可以用于场景理解和行为预测,帮助自动驾驶系统更好地理解周围环境,并做出更安全的决策。该技术还可应用于机器人、增强现实等领域,实现更逼真和可交互的虚拟环境。
📄 摘要(原文)
Reconstructing dynamic driving scenes is essential for developing autonomous systems through sensor-realistic simulation. Although recent methods achieve high-fidelity reconstructions, they either rely on costly human annotations for object trajectories or use time-varying representations without explicit object-level decomposition, leading to intertwined static and dynamic elements that hinder scene separation. We present IDSplat, a self-supervised 3D Gaussian Splatting framework that reconstructs dynamic scenes with explicit instance decomposition and learnable motion trajectories, without requiring human annotations. Our key insight is to model dynamic objects as coherent instances undergoing rigid transformations, rather than unstructured time-varying primitives. For instance decomposition, we employ zero-shot, language-grounded video tracking anchored to 3D using lidar, and estimate consistent poses via feature correspondences. We introduce a coordinated-turn smoothing scheme to obtain temporally and physically consistent motion trajectories, mitigating pose misalignments and tracking failures, followed by joint optimization of object poses and Gaussian parameters. Experiments on the Waymo Open Dataset demonstrate that our method achieves competitive reconstruction quality while maintaining instance-level decomposition and generalizes across diverse sequences and view densities without retraining, making it practical for large-scale autonomous driving applications. Code will be released.