Inst4DGS: Instance-Decomposed 4D Gaussian Splatting with Multi-Video Label Permutation Learning

作者: Yonghan Lee, Dinesh Manocha

分类: cs.CV

发布日期: 2026-03-19

💡 一句话要点

Inst4DGS：基于多视角标签置换学习的实例分解4D高斯溅射

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 4D高斯溅射 实例分解 多视角学习 标签置换 动态场景重建

📋 核心要点

现有动态4DGS方法在实例分解方面存在挑战，难以处理多视角视频中标签不一致问题。
Inst4DGS通过学习每个视频的标签置换隐变量，利用Sinkhorn层实现跨视角实例匹配，从而进行多视角监督。
实验结果表明，Inst4DGS在Panoptic Studio数据集上显著提升了PSNR和实例mIoU，实现了更好的渲染和分割质量。

📝 摘要（中文）

本文提出Inst4DGS，一种具有长时程高斯轨迹的实例分解4D高斯溅射(4DGS)方法。虽然动态4DGS发展迅速，但实例分解的4DGS仍未被充分探索，这主要是由于难以关联独立分割的多视角视频中不一致的实例标签。我们通过引入每个视频的标签置换隐变量来解决这一挑战，这些隐变量通过可微的Sinkhorn层学习跨视频的实例匹配，从而实现具有一致身份保持的直接多视角监督。这种显式的标签对齐产生了清晰的决策边界和时间上稳定的身份，避免了身份漂移。为了进一步提高效率，我们提出了实例分解的运动支架，为每个对象的长时程轨迹优化提供低维运动基。在Panoptic Studio和Neural3DV上的实验表明，Inst4DGS在实现最先进的渲染和分割质量的同时，共同支持跟踪和实例分解。在Panoptic Studio数据集上，Inst4DGS将PSNR从26.10提高到28.36，实例mIoU从0.6310提高到0.9129，优于最强的基线。

🔬 方法详解

问题定义：论文旨在解决动态场景中实例分解的4D高斯溅射问题。现有的动态4DGS方法难以处理多视角视频中实例标签的不一致性，导致无法有效地进行实例级别的跟踪和分割。这种不一致性源于每个视角独立进行实例分割，缺乏跨视角的标签对齐。

核心思路：论文的核心思路是通过学习每个视频的标签置换隐变量，来建立跨视角实例之间的对应关系。通过可微的Sinkhorn层，将标签置换问题转化为一个可优化的目标，从而实现多视角监督，并保持实例身份的一致性。

技术框架：Inst4DGS的整体框架包括以下几个主要模块：1) 多视角视频输入；2) 每个视频的独立实例分割；3) 标签置换隐变量学习，通过Sinkhorn层进行跨视角实例匹配；4) 实例分解的运动支架，为每个对象提供低维运动基；5) 4D高斯溅射渲染和分割。

关键创新：最重要的技术创新点是引入了基于Sinkhorn层的标签置换学习机制，实现了跨视角实例标签的对齐。与现有方法相比，该方法能够显式地学习实例之间的对应关系，避免了身份漂移问题，并提高了渲染和分割的质量。

关键设计：论文的关键设计包括：1) 使用Sinkhorn算法进行标签置换学习，确保可微性；2) 设计实例分解的运动支架，利用低维运动基来优化长时程轨迹，提高效率；3) 使用多视角监督损失函数，包括渲染损失和分割损失，来优化整个模型。

🖼️ 关键图片

📊 实验亮点

Inst4DGS在Panoptic Studio数据集上取得了显著的性能提升。与最强的基线相比，PSNR从26.10提高到28.36，实例mIoU从0.6310提高到0.9129。这些结果表明，Inst4DGS在渲染质量和实例分割精度方面均优于现有方法，能够有效地处理多视角视频中的实例标签不一致问题。

🎯 应用场景

Inst4DGS在动态场景理解、虚拟现实/增强现实、机器人导航等领域具有广泛的应用前景。它可以用于重建和渲染动态场景中的对象，实现高质量的实例级别跟踪和分割，为用户提供更逼真的交互体验。此外，该方法还可以应用于自动驾驶、视频监控等领域，提高对动态环境的感知能力。

📄 摘要（原文）

We present Inst4DGS, an instance-decomposed 4D Gaussian Splatting (4DGS) approach with long-horizon per-Gaussian trajectories. While dynamic 4DGS has advanced rapidly, instance-decomposed 4DGS remains underexplored, largely due to the difficulty of associating inconsistent instance labels across independently segmented multi-view videos. We address this challenge by introducing per-video label-permutation latents that learn cross-video instance matches through a differentiable Sinkhorn layer, enabling direct multi-view supervision with consistent identity preservation. This explicit label alignment yields sharp decision boundaries and temporally stable identities without identity drift. To further improve efficiency, we propose instance-decomposed motion scaffolds that provide low-dimensional motion bases per object for long-horizon trajectory optimization. Experiments on Panoptic Studio and Neural3DV show that Inst4DGS jointly supports tracking and instance decomposition while achieving state-of-the-art rendering and segmentation quality. On the Panoptic Studio dataset, Inst4DGS improves PSNR from 26.10 to 28.36, and instance mIoU from 0.6310 to 0.9129, over the strongest baseline.

Inst4DGS: Instance-Decomposed 4D Gaussian Splatting with Multi-Video Label Permutation Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理