DP-DeGauss: Dynamic Probabilistic Gaussian Decomposition for Egocentric 4D Scene Reconstruction
作者: Tingxi Chen, Zhengxue Cheng, Houqiang Zhong, Su Wang, Rong Xie, Li Song
分类: cs.CV
发布日期: 2026-04-09
💡 一句话要点
DP-DeGauss:用于自中心4D场景重建的动态概率高斯分解
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自中心视频 4D场景重建 动态场景 高斯分解 解耦 具身智能 AR/VR
📋 核心要点
- 自中心动态场景重建面临复杂运动、遮挡和交互等挑战,现有方法难以有效分离背景、手部和物体。
- DP-DeGauss通过动态概率高斯分解,将3D高斯动态路由到不同的形变分支,实现背景、手部和物体的解耦。
- 实验表明,DP-DeGauss在重建质量上优于现有方法,并首次实现了背景、手部和物体的显式分离。
📝 摘要(中文)
本文提出了一种名为DP-DeGauss的动态概率高斯分解框架,用于自中心4D场景重建。针对自中心视频中复杂的自我运动、遮挡和手-物交互等挑战,现有分解方法难以胜任,它们通常假设固定视角或将动态信息合并到单一前景中。DP-DeGauss从COLMAP先验初始化一个统一的3D高斯集合,并为每个高斯赋予可学习的类别概率,然后将它们动态地路由到专门的形变分支,分别用于背景、手部或物体建模。该方法采用类别特定的掩码以实现更好的解耦,并引入亮度和运动流控制来改善静态渲染和动态重建。实验结果表明,DP-DeGauss在PSNR指标上平均优于基线方法+1.70dB,并在SSIM和LPIPS指标上也有所提升。更重要的是,该框架首次实现了背景、手部和物体组件的先进解耦,从而能够进行显式、细粒度的分离,为更直观的自中心场景理解和编辑铺平了道路。
🔬 方法详解
问题定义:论文旨在解决自中心视角下动态场景的4D重建问题,特别是如何有效地分离和建模场景中的背景、手部和物体。现有方法要么假设视角固定,要么将所有动态元素合并到单一前景中,无法处理复杂的自我运动、遮挡以及手部与物体的交互,导致重建质量下降,且难以进行细粒度的场景理解和编辑。
核心思路:论文的核心思路是利用动态概率高斯分解,将场景表示为一组3D高斯分布,并为每个高斯赋予一个可学习的类别概率,用于表示该高斯属于背景、手部或物体的可能性。通过动态路由机制,将不同的高斯引导到对应的形变分支进行建模,从而实现场景元素的解耦。
技术框架:DP-DeGauss框架主要包含以下几个模块:1) 3D高斯初始化:利用COLMAP等方法从多视角图像中初始化一组3D高斯分布。2) 类别概率学习:为每个高斯学习一个类别概率向量,表示其属于背景、手部或物体的概率。3) 动态路由:根据类别概率,将高斯动态地路由到对应的形变分支。4) 形变建模:分别使用不同的形变网络对背景、手部和物体进行建模。5) 渲染:将形变后的高斯投影到图像平面,并进行渲染。
关键创新:该方法最重要的创新在于动态概率高斯分解,它能够根据场景内容自适应地将高斯分布分配到不同的形变分支,从而实现场景元素的解耦。与现有方法相比,DP-DeGauss能够更有效地处理复杂的动态场景,并提供更细粒度的场景表示。
关键设计:1) 类别特定掩码:使用类别特定的掩码来约束形变网络的输出,以进一步提高解耦效果。2) 亮度和运动流控制:引入亮度和运动流控制,以改善静态渲染和动态重建的质量。3) 损失函数:采用多项损失函数,包括渲染损失、类别损失和正则化损失,以优化模型的参数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DP-DeGauss在自中心4D场景重建任务中取得了显著的性能提升。在PSNR指标上,DP-DeGauss平均优于基线方法1.70dB,并在SSIM和LPIPS指标上也有所提升。更重要的是,DP-DeGauss首次实现了背景、手部和物体组件的先进解耦,为更直观的自中心场景理解和编辑铺平了道路。这些结果表明,DP-DeGauss是一种有效的自中心4D场景重建方法。
🎯 应用场景
DP-DeGauss在AR/VR、具身智能等领域具有广泛的应用前景。它可以用于创建逼真的虚拟环境,实现自然的人机交互,并为机器人提供更丰富的场景理解能力。此外,该方法还可以用于场景编辑、动画制作等领域,为用户提供更灵活的创作工具。未来,该技术有望应用于智能家居、自动驾驶等领域,提升智能化水平。
📄 摘要(原文)
Egocentric video is crucial for next-generation 4D scene reconstruction, with applications in AR/VR and embodied AI. However, reconstructing dynamic first-person scenes is challenging due to complex ego-motion, occlusions, and hand-object interactions. Existing decomposition methods are ill-suited, assuming fixed viewpoints or merging dynamics into a single foreground. To address these limitations, we introduce DP-DeGauss, a dynamic probabilistic Gaussian decomposition framework for egocentric 4D reconstruction. Our method initializes a unified 3D Gaussian set from COLMAP priors, augments each with a learnable category probability, and dynamically routes them into specialized deformation branches for background, hands, or object modeling. We employ category-specific masks for better disentanglement and introduce brightness and motion-flow control to improve static rendering and dynamic reconstruction. Extensive experiments show that DP-DeGauss outperforms baselines by +1.70dB in PSNR on average with SSIM and LPIPS gains. More importantly, our framework achieves the first and state-of-the-art disentanglement of background, hand, and object components, enabling explicit, fine-grained separation, paving the way for more intuitive ego scene understanding and editing.