DP-DeGauss: Dynamic Probabilistic Gaussian Decomposition for Egocentric 4D Scene Reconstruction

作者: Tingxi Chen, Zhengxue Cheng, Houqiang Zhong, Su Wang, Rong Xie, Li Song

分类: cs.CV

发布日期: 2026-04-09

💡 一句话要点

DP-DeGauss：用于自中心4D场景重建的动态概率高斯分解

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自中心视频 4D场景重建 动态场景 高斯分解 解耦 具身智能 AR/VR

📋 核心要点

自中心动态场景重建面临复杂运动、遮挡和交互等挑战，现有方法难以有效分离背景、手部和物体。
DP-DeGauss通过动态概率高斯分解，将3D高斯动态路由到不同的形变分支，实现背景、手部和物体的解耦。
实验表明，DP-DeGauss在重建质量上优于现有方法，并首次实现了背景、手部和物体的显式分离。

📝 摘要（中文）

本文提出了一种名为DP-DeGauss的动态概率高斯分解框架，用于自中心4D场景重建。针对自中心视频中复杂的自我运动、遮挡和手-物交互等挑战，现有分解方法难以胜任，它们通常假设固定视角或将动态信息合并到单一前景中。DP-DeGauss从COLMAP先验初始化一个统一的3D高斯集合，并为每个高斯赋予可学习的类别概率，然后将它们动态地路由到专门的形变分支，分别用于背景、手部或物体建模。该方法采用类别特定的掩码以实现更好的解耦，并引入亮度和运动流控制来改善静态渲染和动态重建。实验结果表明，DP-DeGauss在PSNR指标上平均优于基线方法+1.70dB，并在SSIM和LPIPS指标上也有所提升。更重要的是，该框架首次实现了背景、手部和物体组件的先进解耦，从而能够进行显式、细粒度的分离，为更直观的自中心场景理解和编辑铺平了道路。

🔬 方法详解

问题定义：论文旨在解决自中心视角下动态场景的4D重建问题，特别是如何有效地分离和建模场景中的背景、手部和物体。现有方法要么假设视角固定，要么将所有动态元素合并到单一前景中，无法处理复杂的自我运动、遮挡以及手部与物体的交互，导致重建质量下降，且难以进行细粒度的场景理解和编辑。

核心思路：论文的核心思路是利用动态概率高斯分解，将场景表示为一组3D高斯分布，并为每个高斯赋予一个可学习的类别概率，用于表示该高斯属于背景、手部或物体的可能性。通过动态路由机制，将不同的高斯引导到对应的形变分支进行建模，从而实现场景元素的解耦。

技术框架：DP-DeGauss框架主要包含以下几个模块：1) 3D高斯初始化：利用COLMAP等方法从多视角图像中初始化一组3D高斯分布。2) 类别概率学习：为每个高斯学习一个类别概率向量，表示其属于背景、手部或物体的概率。3) 动态路由：根据类别概率，将高斯动态地路由到对应的形变分支。4) 形变建模：分别使用不同的形变网络对背景、手部和物体进行建模。5) 渲染：将形变后的高斯投影到图像平面，并进行渲染。

关键创新：该方法最重要的创新在于动态概率高斯分解，它能够根据场景内容自适应地将高斯分布分配到不同的形变分支，从而实现场景元素的解耦。与现有方法相比，DP-DeGauss能够更有效地处理复杂的动态场景，并提供更细粒度的场景表示。

关键设计：1) 类别特定掩码：使用类别特定的掩码来约束形变网络的输出，以进一步提高解耦效果。2) 亮度和运动流控制：引入亮度和运动流控制，以改善静态渲染和动态重建的质量。3) 损失函数：采用多项损失函数，包括渲染损失、类别损失和正则化损失，以优化模型的参数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DP-DeGauss在自中心4D场景重建任务中取得了显著的性能提升。在PSNR指标上，DP-DeGauss平均优于基线方法1.70dB，并在SSIM和LPIPS指标上也有所提升。更重要的是，DP-DeGauss首次实现了背景、手部和物体组件的先进解耦，为更直观的自中心场景理解和编辑铺平了道路。这些结果表明，DP-DeGauss是一种有效的自中心4D场景重建方法。

🎯 应用场景

DP-DeGauss在AR/VR、具身智能等领域具有广泛的应用前景。它可以用于创建逼真的虚拟环境，实现自然的人机交互，并为机器人提供更丰富的场景理解能力。此外，该方法还可以用于场景编辑、动画制作等领域，为用户提供更灵活的创作工具。未来，该技术有望应用于智能家居、自动驾驶等领域，提升智能化水平。

📄 摘要（原文）

Egocentric video is crucial for next-generation 4D scene reconstruction, with applications in AR/VR and embodied AI. However, reconstructing dynamic first-person scenes is challenging due to complex ego-motion, occlusions, and hand-object interactions. Existing decomposition methods are ill-suited, assuming fixed viewpoints or merging dynamics into a single foreground. To address these limitations, we introduce DP-DeGauss, a dynamic probabilistic Gaussian decomposition framework for egocentric 4D reconstruction. Our method initializes a unified 3D Gaussian set from COLMAP priors, augments each with a learnable category probability, and dynamically routes them into specialized deformation branches for background, hands, or object modeling. We employ category-specific masks for better disentanglement and introduce brightness and motion-flow control to improve static rendering and dynamic reconstruction. Extensive experiments show that DP-DeGauss outperforms baselines by +1.70dB in PSNR on average with SSIM and LPIPS gains. More importantly, our framework achieves the first and state-of-the-art disentanglement of background, hand, and object components, enabling explicit, fine-grained separation, paving the way for more intuitive ego scene understanding and editing.

DP-DeGauss: Dynamic Probabilistic Gaussian Decomposition for Egocentric 4D Scene Reconstruction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理