Splannequin: Freezing Monocular Mannequin-Challenge Footage with Dual-Detection Splatting
作者: Hao-Jen Chien, Yi-Chuan Huang, Chung-Ho Wu, Wei-Lun Chao, Yu-Lun Liu
分类: cs.CV
发布日期: 2025-12-04 (更新: 2025-12-08)
备注: WACV 2026. Project page: https://chien90190.github.io/splannequin/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
Splannequin:利用双重检测 Splatting 冻结单目人体雕塑挑战视频
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 动态高斯Splatting 人体雕塑挑战 单目视频重建 时间锚定 冻结时间渲染
📋 核心要点
- 现有方法难以在单目人体雕塑挑战视频中,既实现冻结场景的高保真重建,又保留细微动态以供用户选择。
- Splannequin通过动态高斯Splatting建模场景,并根据高斯基元的状态(隐藏或缺陷)进行时间锚定,从而实现高质量的冻结效果。
- 该方法易于集成到现有动态高斯管道中,无需修改架构,且推理开销为零,用户偏好度高达96%。
📝 摘要(中文)
本研究针对人体雕塑挑战(Mannequin-Challenge, MC)视频,提出了一个独特的、从单目视频合成高保真冻结3D场景的问题,这与标准的动态场景重建不同。我们的目标不是建模运动,而是创建冻结场景,同时策略性地保留细微的动态,以实现用户可控的即时选择。为此,我们引入了一种动态高斯Splatting的新应用:场景被动态建模,保留了附近的temporal变化,并通过固定模型的时间参数来渲染静态场景。然而,在这种用法下,具有稀疏时间监督的单目捕获会引入伪影,如重影和模糊,对于在高斯基元在弱监督时间戳处变得未观察到或被遮挡的情况。我们提出了Splannequin,一种与架构无关的正则化方法,它检测高斯基元的两种状态:隐藏和缺陷,并应用时间锚定。在主要的前向相机运动下,隐藏状态被锚定到它们最近的、良好观察到的过去状态,而缺陷状态被锚定到具有更强监督的未来状态。我们的方法通过简单的损失项集成到现有的动态高斯管道中,不需要架构更改,并且增加了零推理开销。这显著提高了视觉质量,实现了高保真、用户可选择的冻结时间渲染,并通过96%的用户偏好验证。
🔬 方法详解
问题定义:人体雕塑挑战视频的特点是场景几乎静止,但又存在细微的动态变化。从单目视频重建此类场景,需要在冻结场景的同时保留这些动态,以便用户选择特定时刻。现有方法在稀疏时间监督下,容易产生重影和模糊等伪影,尤其是在高斯基元被遮挡或未观察到的情况下。
核心思路:Splannequin的核心思路是利用动态高斯Splatting来建模场景,并根据高斯基元的状态(隐藏或缺陷)进行时间锚定。通过动态建模,可以保留场景中的细微动态变化。通过时间锚定,可以有效地减少重影和模糊等伪影,提高重建质量。
技术框架:Splannequin方法可以集成到现有的动态高斯Splatting管道中。它主要包含两个步骤:首先,检测高斯基元的状态(隐藏或缺陷);然后,根据高斯基元的状态进行时间锚定。隐藏状态被锚定到最近的、良好观察到的过去状态,而缺陷状态被锚定到具有更强监督的未来状态。
关键创新:Splannequin的关键创新在于提出了双重检测 Splatting 的概念,即根据高斯基元的状态(隐藏或缺陷)进行不同的时间锚定。这种方法能够有效地利用时间信息,减少伪影,提高重建质量。此外,该方法与架构无关,可以方便地集成到现有的动态高斯Splatting管道中。
关键设计:Splannequin使用简单的损失函数来实现时间锚定。对于隐藏状态,损失函数鼓励其与最近的过去状态保持一致。对于缺陷状态,损失函数鼓励其与未来的状态保持一致。具体而言,可以使用L2损失或Huber损失来衡量状态之间的一致性。此外,该方法不需要修改现有的网络结构,只需要添加额外的损失项即可。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Splannequin方法能够显著提高冻结时间场景的视觉质量。用户偏好度测试显示,96%的用户更喜欢使用Splannequin方法生成的场景。此外,该方法无需修改现有架构,且推理开销为零,具有很高的实用价值。定性结果也显示,Splannequin能有效减少重影和模糊等伪影。
🎯 应用场景
Splannequin技术可应用于虚拟现实、增强现实、游戏等领域,用于创建高质量的冻结时间场景。例如,用户可以使用手机拍摄一段人体雕塑挑战视频,然后使用Splannequin技术将其转换为一个可交互的3D场景,用户可以自由选择不同的时间点进行观看和体验。该技术还可以用于电影制作、广告设计等领域,创造出独特的视觉效果。
📄 摘要(原文)
Synthesizing high-fidelity frozen 3D scenes from monocular Mannequin-Challenge (MC) videos is a unique problem distinct from standard dynamic scene reconstruction. Instead of focusing on modeling motion, our goal is to create a frozen scene while strategically preserving subtle dynamics to enable user-controlled instant selection. To achieve this, we introduce a novel application of dynamic Gaussian splatting: the scene is modeled dynamically, which retains nearby temporal variation, and a static scene is rendered by fixing the model's time parameter. However, under this usage, monocular capture with sparse temporal supervision introduces artifacts like ghosting and blur for Gaussians that become unobserved or occluded at weakly supervised timestamps. We propose Splannequin, an architecture-agnostic regularization that detects two states of Gaussian primitives, hidden and defective, and applies temporal anchoring. Under predominantly forward camera motion, hidden states are anchored to their recent well-observed past states, while defective states are anchored to future states with stronger supervision. Our method integrates into existing dynamic Gaussian pipelines via simple loss terms, requires no architectural changes, and adds zero inference overhead. This results in markedly improved visual quality, enabling high-fidelity, user-selectable frozen-time renderings, validated by a 96% user preference. Project page: https://chien90190.github.io/splannequin/