PaMoSplat: Part-Aware Motion-Guided Gaussian Splatting for Dynamic Scene Reconstruction
作者: Yinan Deng, Jianyu Dou, Jiahui Wang, Jingyu Zhao, Yi Yang, Yufeng Yue
分类: cs.CV, cs.GR, cs.RO
发布日期: 2026-05-11
备注: Accepted by TCSVT. Project Url: https://pamosplat.github.io
DOI: 10.1109/TCSVT.2026.3691475
💡 一句话要点
提出PaMoSplat框架,通过部件感知与运动引导实现高保真动态场景重建
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 动态场景重建 高斯泼溅 部件感知 光流引导 4D场景编辑 运动估计
📋 核心要点
- 现有3DGS动态重建方法在处理复杂、大尺度运动场景时,难以同时保证高保真渲染质量与精确的运动跟踪效果。
- 提出PaMoSplat框架,利用部件感知作为形变基元,并引入光流运动先验引导部件运动,实现更稳健的动态场景建模。
- 实验表明,该方法在真实场景中显著提升了渲染质量与跟踪精度,并实现了更快的收敛速度及4D场景编辑能力。
📝 摘要(中文)
动态场景重建是计算机视觉与机器人领域的核心挑战。尽管基于3D高斯泼溅(3DGS)的方法已取得进展,但在处理复杂大尺度运动时,实现高保真渲染与精确跟踪仍面临巨大困难。为此,本文提出PaMoSplat,一种结合部件感知与运动先验的动态高斯泼溅框架。该方法基于两点观察:部件是场景形变的基元,且光流运动线索能有效引导部件运动。具体而言,PaMoSplat通过图聚类将多视图分割掩码提升至3D空间,建立一致的Gaussian部件。在后续时间步中,利用差分进化算法结合多视图光流线索估计部件的刚性运动,为优化提供稳健的初始值。此外,PaMoSplat引入自适应迭代计数机制、内部可学习刚性及流监督渲染损失,以加速并优化训练过程。在多种场景下的评估表明,该方法在渲染质量、跟踪精度及收敛速度上均优于现有方法,并支持4D场景编辑等下游应用。
🔬 方法详解
问题定义:论文旨在解决动态场景重建中,复杂运动导致的高斯点跟踪失效及渲染伪影问题。现有方法往往难以在大幅度形变下保持几何一致性,导致重建质量下降。
核心思路:核心思想是将场景分解为具有语义意义的“部件(Parts)”,将复杂的非刚性形变建模为部件的刚性运动组合。通过引入光流作为运动先验,为高斯点的运动优化提供强约束,从而实现更准确的跟踪。
技术框架:首先通过多视图分割掩码与图聚类构建3D部件;其次,在时间维度上利用差分进化算法,基于光流线索估计部件的刚性变换矩阵;最后,通过自适应迭代与流监督损失对高斯点进行精细化优化。
关键创新:引入部件感知机制,将场景解耦为可追踪的基元;提出基于差分进化算法的运动估计策略,有效解决了复杂运动下的初始化难题,避免了传统优化方法易陷入局部最优的问题。
关键设计:引入了内部可学习刚性参数,允许模型在刚性运动基础上微调局部形变;采用流监督渲染损失(Flow-supervised rendering loss)强制渲染结果与光流场对齐,显著提升了运动估计的准确性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,PaMoSplat在多个公开数据集及真实场景中表现卓越。相比于现有主流动态3DGS方法,该框架在PSNR和SSIM等指标上均有显著提升,特别是在处理大幅度运动时,跟踪精度提升明显。此外,得益于自适应迭代机制,其训练收敛速度较基线方法大幅缩短,验证了该方法在效率与质量上的双重优势。
🎯 应用场景
PaMoSplat在机器人导航、自动驾驶场景理解及虚拟现实内容创作中具有重要价值。其部件级建模能力使其能够直接支持4D场景编辑,如对特定物体进行独立移动、替换或交互,为影视特效制作与数字孪生构建提供了高效的底层技术支撑。
📄 摘要(原文)
Dynamic scene reconstruction represents a fundamental yet demanding challenge in computer vision and robotics. While recent progress in 3DGS-based methods has advanced dynamic scene modeling, obtaining high-fidelity rendering and accurate tracking in scenarios with substantial, intricate motions remains significantly challenging. To address these challenges, we propose PaMoSplat, a novel dynamic Gaussian splatting framework incorporating part awareness and motion priors. Our approach is grounded in two key observations: 1) Parts serve as primitives for scene deformation, and 2) Motion cues from optical flow can effectively guide part motion. Specifically, PaMoSplat initializes by lifting multi-view segmentation masks into 3D space via graph clustering, establishing coherent Gaussian parts. For subsequent timestamps, we leverage a differential evolutionary algorithm to estimate the rigid motion of these parts using multi-view optical flow cues, providing a robust warm-start for further optimization. Additionally, PaMoSplat introduces an adaptive iteration count mechanism, internal learnable rigidity, and flow-supervised rendering loss to accelerate and optimize the training process. Comprehensive evaluations across diverse scenes, including real-world environments, demonstrate that PaMoSplat delivers superior rendering quality, improved tracking precision, and faster convergence compared to existing methods. Furthermore, it enables multiple part-level downstream applications, such as 4D scene editing.