PersistGS: Differentiable Physics for Object Permanence in 4D Gaussian Splatting

📄 arXiv: 2606.03479v1 📥 PDF

作者: Adrian Ramlal, John S. Zelek

分类: cs.CV, cs.GR

发布日期: 2026-06-02

备注: Accepted in IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2026 Workshop on Generative 3D Reconstruction

期刊: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, 2026, pp. 4687-4696


💡 一句话要点

提出PersistGS以解决动态场景中的物体永久性问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation)

关键词: 动态场景重建 高斯点云 可微模拟 物体永久性 遮挡处理 刚体动力学 深度学习

📋 核心要点

  1. 现有的动态场景重建方法在物体被完全遮挡时,缺乏有效的监督信号,导致重建质量下降。
  2. 本文提出PersistGS,通过结合可微刚体模拟与3D高斯点云,恢复遮挡期间的物体状态,确保物理一致性。
  3. 实验结果显示,PersistGS在遮挡期间的轨迹预测精度显著提高,PSNR提升达2.46dB,表现优于传统方法。

📝 摘要(中文)

动态3D高斯点云(3DGS)方法通过光度监督从同步的多摄像头视频重建时间变化的场景。然而,当移动物体在所有训练摄像头中完全被遮挡时,这种监督信号消失,导致高斯表示的物体退化。现有方法依赖于学习的生成先验,优先考虑视觉合理性而非物理正确性。本文提出PersistGS,通过将可微刚体模拟与3D高斯点云相结合,恢复遮挡期间的物体永久性。该方法将场景分解为每个物体的高斯和碰撞网格,通过可微模拟从观察到的遮挡前轨迹中估计摩擦和速度,并利用得到的SE(3)轨迹在遮挡期间定位物体高斯。实验表明,PersistGS在合成场景中相较于常速外推提升了+2.46dB PSNR,并且与真实轨迹上限相差仅0.19dB。

🔬 方法详解

问题定义:本文旨在解决动态场景重建中,当物体被完全遮挡时,缺乏有效监督信号导致的高斯表示退化问题。现有方法往往依赖视觉合理性而忽视物理正确性,造成重建质量下降。

核心思路:PersistGS通过结合可微刚体模拟与3D高斯点云,利用物体在遮挡前的运动轨迹来预测遮挡期间的物体状态。这种设计确保了物体运动的物理一致性,能够更准确地捕捉碰撞事件。

技术框架:该方法的整体架构包括三个主要模块:首先,将场景分解为每个物体的高斯和碰撞网格;其次,通过可微模拟估计摩擦和速度;最后,利用得到的SE(3)轨迹在遮挡期间定位物体高斯。

关键创新:PersistGS的核心创新在于引入了可微刚体模拟,使得物体在遮挡期间的运动轨迹能够遵循刚体动力学方程,从而捕捉到传统方法无法建模的接触事件。

关键设计:在损失函数设计上,本文引入了质心轮廓损失,能够有效隔离位置梯度与外观噪声,最终实现比光度监督低40%的轨迹误差。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,PersistGS在合成场景中的表现优于常速外推,PSNR提升达2.46dB,且与真实轨迹上限的差距仅为0.19dB,显示出其在物体遮挡重建中的显著优势。

🎯 应用场景

该研究在动态场景重建、机器人导航和增强现实等领域具有广泛的应用潜力。通过提高物体在遮挡期间的重建精度,PersistGS能够为实时系统提供更可靠的物体状态估计,进而提升用户体验和系统性能。未来,该方法还可以扩展到更复杂的场景和多物体交互的情境中。

📄 摘要(原文)

Dynamic 3D Gaussian Splatting (3DGS) methods reconstruct time-varying scenes from synchronized multi-camera video using photometric supervision. When a moving object becomes fully occluded from all training cameras, this supervision vanishes: the Gaussians representing it receive no gradient signal and degrade. Existing approaches to incomplete observations in neural reconstruction rely on learned generative priors that prioritize visual plausibility over physical correctness. We propose $\textbf{PersistGS}$, a method that restores object permanence during occlusion by coupling differentiable rigid body simulation with 3D Gaussian Splatting. Our approach decomposes the scene into per-object Gaussians and collision meshes, estimates friction and velocity from the observed pre-occlusion trajectory via differentiable simulation, and uses the resulting SE(3) trajectory to position object Gaussians throughout the occlusion period. Because the predicted trajectory satisfies the governing equations of rigid body dynamics, it faithfully captures contact events (bounces, friction-based deceleration, direction changes) that kinematic extrapolation cannot model. We introduce a centroid silhouette loss that isolates positional gradients from appearance noise, yielding 40% lower trajectory error than photometric supervision. We evaluate using cameras withheld from training that observe the object during its occlusion. Experiments on synthetic scenes show that PersistGS outperforms constant velocity extrapolation by +2.46dB PSNR and comes within 0.19dB of a ground-truth trajectory upper bound.