Inst4DGS: Instance-Decomposed 4D Gaussian Splatting with Multi-Video Label Permutation Learning
作者: Yonghan Lee, Dinesh Manocha
分类: cs.CV
发布日期: 2026-03-19
💡 一句话要点
Inst4DGS:基于多视角标签置换学习的实例分解4D高斯溅射
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 4D高斯溅射 实例分解 多视角学习 标签置换 动态场景重建
📋 核心要点
- 现有动态4DGS方法在实例分解方面存在挑战,难以处理多视角视频中标签不一致问题。
- Inst4DGS通过学习每个视频的标签置换隐变量,利用Sinkhorn层实现跨视角实例匹配,从而进行多视角监督。
- 实验结果表明,Inst4DGS在Panoptic Studio数据集上显著提升了PSNR和实例mIoU,实现了更好的渲染和分割质量。
📝 摘要(中文)
本文提出Inst4DGS,一种具有长时程高斯轨迹的实例分解4D高斯溅射(4DGS)方法。虽然动态4DGS发展迅速,但实例分解的4DGS仍未被充分探索,这主要是由于难以关联独立分割的多视角视频中不一致的实例标签。我们通过引入每个视频的标签置换隐变量来解决这一挑战,这些隐变量通过可微的Sinkhorn层学习跨视频的实例匹配,从而实现具有一致身份保持的直接多视角监督。这种显式的标签对齐产生了清晰的决策边界和时间上稳定的身份,避免了身份漂移。为了进一步提高效率,我们提出了实例分解的运动支架,为每个对象的长时程轨迹优化提供低维运动基。在Panoptic Studio和Neural3DV上的实验表明,Inst4DGS在实现最先进的渲染和分割质量的同时,共同支持跟踪和实例分解。在Panoptic Studio数据集上,Inst4DGS将PSNR从26.10提高到28.36,实例mIoU从0.6310提高到0.9129,优于最强的基线。
🔬 方法详解
问题定义:论文旨在解决动态场景中实例分解的4D高斯溅射问题。现有的动态4DGS方法难以处理多视角视频中实例标签的不一致性,导致无法有效地进行实例级别的跟踪和分割。这种不一致性源于每个视角独立进行实例分割,缺乏跨视角的标签对齐。
核心思路:论文的核心思路是通过学习每个视频的标签置换隐变量,来建立跨视角实例之间的对应关系。通过可微的Sinkhorn层,将标签置换问题转化为一个可优化的目标,从而实现多视角监督,并保持实例身份的一致性。
技术框架:Inst4DGS的整体框架包括以下几个主要模块:1) 多视角视频输入;2) 每个视频的独立实例分割;3) 标签置换隐变量学习,通过Sinkhorn层进行跨视角实例匹配;4) 实例分解的运动支架,为每个对象提供低维运动基;5) 4D高斯溅射渲染和分割。
关键创新:最重要的技术创新点是引入了基于Sinkhorn层的标签置换学习机制,实现了跨视角实例标签的对齐。与现有方法相比,该方法能够显式地学习实例之间的对应关系,避免了身份漂移问题,并提高了渲染和分割的质量。
关键设计:论文的关键设计包括:1) 使用Sinkhorn算法进行标签置换学习,确保可微性;2) 设计实例分解的运动支架,利用低维运动基来优化长时程轨迹,提高效率;3) 使用多视角监督损失函数,包括渲染损失和分割损失,来优化整个模型。
🖼️ 关键图片
📊 实验亮点
Inst4DGS在Panoptic Studio数据集上取得了显著的性能提升。与最强的基线相比,PSNR从26.10提高到28.36,实例mIoU从0.6310提高到0.9129。这些结果表明,Inst4DGS在渲染质量和实例分割精度方面均优于现有方法,能够有效地处理多视角视频中的实例标签不一致问题。
🎯 应用场景
Inst4DGS在动态场景理解、虚拟现实/增强现实、机器人导航等领域具有广泛的应用前景。它可以用于重建和渲染动态场景中的对象,实现高质量的实例级别跟踪和分割,为用户提供更逼真的交互体验。此外,该方法还可以应用于自动驾驶、视频监控等领域,提高对动态环境的感知能力。
📄 摘要(原文)
We present Inst4DGS, an instance-decomposed 4D Gaussian Splatting (4DGS) approach with long-horizon per-Gaussian trajectories. While dynamic 4DGS has advanced rapidly, instance-decomposed 4DGS remains underexplored, largely due to the difficulty of associating inconsistent instance labels across independently segmented multi-view videos. We address this challenge by introducing per-video label-permutation latents that learn cross-video instance matches through a differentiable Sinkhorn layer, enabling direct multi-view supervision with consistent identity preservation. This explicit label alignment yields sharp decision boundaries and temporally stable identities without identity drift. To further improve efficiency, we propose instance-decomposed motion scaffolds that provide low-dimensional motion bases per object for long-horizon trajectory optimization. Experiments on Panoptic Studio and Neural3DV show that Inst4DGS jointly supports tracking and instance decomposition while achieving state-of-the-art rendering and segmentation quality. On the Panoptic Studio dataset, Inst4DGS improves PSNR from 26.10 to 28.36, and instance mIoU from 0.6310 to 0.9129, over the strongest baseline.