Uncertainty-Aware 4D Gaussian Splatting for Monocular Occluded Human Rendering

📄 arXiv: 2602.06343 📥 PDF

作者: Weiquan Wang, Feifei Shao, Lin Li, Zhen Wang, Jun Xiao, Long Chen

分类: cs.CV

发布日期: 2026-04-06


💡 一句话要点

提出不确定性感知的4D高斯溅射,解决单目遮挡人体渲染问题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 单目人体渲染 4D高斯溅射 不确定性感知 遮挡处理 概率形变网络

📋 核心要点

  1. 单目视频中动态人体渲染在遮挡下性能急剧下降,现有方法依赖外部先验,易产生时间闪烁或无法捕捉多样外观。
  2. U-4DGS将渲染任务建模为最大后验估计问题,利用概率形变网络和联合光栅化流程,生成不确定性图来调节梯度。
  3. 通过置信度感知的正则化,U-4DGS能选择性地传播时空有效性,有效防止几何漂移,并在实验中取得SOTA结果。

📝 摘要(中文)

本文提出了一种名为U-4DGS的框架,用于解决单目视频中动态人体在遮挡下的高保真渲染问题。现有方法要么通过生成模型幻构缺失内容,导致严重的时间闪烁;要么施加刚性的几何启发式方法,无法捕捉多样的外观。U-4DGS将该任务重新定义为异方差观测噪声下的最大后验估计问题。该框架集成了概率形变网络和联合光栅化流程,渲染像素对齐的不确定性图,作为自适应梯度调节器,自动衰减来自不可靠观测的伪影。此外,为了防止缺乏可靠视觉线索区域的几何漂移,本文实施了置信度感知的正则化,利用学习到的不确定性来选择性地传播时空有效性。在ZJU-MoCap和OcMotion数据集上的大量实验表明,U-4DGS实现了最先进的渲染保真度和鲁棒性。

🔬 方法详解

问题定义:论文旨在解决单目视频中动态人体在存在遮挡情况下的高保真渲染问题。现有方法主要存在两个痛点:一是依赖生成模型来填补遮挡区域,但容易引入时间上的不稳定性,产生闪烁伪影;二是采用刚性的几何约束,无法适应人体姿态和外观的多样性变化。

核心思路:论文的核心思路是将渲染过程建模为一个最大后验(MAP)估计问题,并引入不确定性感知机制。通过学习像素级别的不确定性,可以自适应地调整渲染过程中的梯度更新,从而降低遮挡区域对渲染结果的影响。同时,利用学习到的不确定性来指导时空正则化,防止在缺乏视觉信息的区域出现几何漂移。

技术框架:U-4DGS框架主要包含两个核心模块:概率形变网络(Probabilistic Deformation Network)和联合光栅化流程(Joint Rasterization pipeline)。概率形变网络负责预测每个像素的不确定性,联合光栅化流程则利用这些不确定性信息来调整渲染过程。此外,框架还包含置信度感知的正则化模块,用于约束几何形状,防止漂移。整体流程是从单目视频中提取特征,输入到概率形变网络中预测不确定性,然后利用联合光栅化流程进行渲染,最后通过置信度感知的正则化进行优化。

关键创新:论文的关键创新在于引入了不确定性感知机制,并将其与4D高斯溅射相结合。通过学习像素级别的不确定性,可以自适应地调整渲染过程,从而提高在遮挡情况下的渲染鲁棒性。此外,置信度感知的正则化也是一个重要的创新点,它可以有效地防止几何漂移,提高渲染质量。

关键设计:概率形变网络的设计细节未知,但推测其输出包含每个像素的不确定性估计。联合光栅化流程的关键在于如何将不确定性信息融入到渲染过程中,可能是通过调整梯度更新的权重来实现。置信度感知的正则化可能采用了一种加权的损失函数,其中权重由学习到的不确定性决定。损失函数的具体形式未知,但推测其包含渲染损失和正则化损失两部分。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

U-4DGS在ZJU-MoCap和OcMotion数据集上进行了广泛的实验,结果表明其在渲染保真度和鲁棒性方面均优于现有方法。具体性能数据未知,但摘要中明确指出U-4DGS实现了state-of-the-art的渲染效果,表明其性能提升显著。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、游戏开发等领域,尤其是在需要从单目视频中重建和渲染动态人体的场景下。例如,可以用于创建逼真的虚拟化身,或者在游戏中实现更自然的动作捕捉和渲染。此外,该方法还可以扩展到其他动态场景的渲染,例如动物或车辆。

📄 摘要(原文)

High-fidelity rendering of dynamic humans from monocular videos typically degrades catastrophically under occlusions. Existing solutions incorporate external priors-either hallucinating missing content via generative models, which induces severe temporal flickering, or imposing rigid geometric heuristics that fail to capture diverse appearances. To this end, we reformulate the task as a Maximum A Posteriori estimation problem under heteroscedastic observation noise. In this paper, we propose U-4DGS, a framework integrating a Probabilistic Deformation Network and a Joint Rasterization pipeline. This architecture renders pixel-aligned uncertainty maps that act as an adaptive gradient modulator, automatically attenuating artifacts from unreliable observations. Furthermore, to prevent geometric drift in regions lacking reliable visual cues, we enforce Confidence-Aware Regularizations, which leverage the learned uncertainty to selectively propagate spatial-temporal validity. Extensive experiments on the ZJU-MoCap and OcMotion datasets demonstrate that U-4DGS achieves state-of-the-art rendering fidelity and robustness.