SirenPose: Dynamic Scene Reconstruction via Geometric Supervision

📄 arXiv: 2512.20531v1 📥 PDF

作者: Kaitong Cai, Jensen Zhang, Jing Yang, Keze Wang

分类: cs.CV

发布日期: 2025-12-23

备注: Under submission


💡 一句话要点

SirenPose:通过几何监督实现动态场景的精确重建与时序一致性

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion) 支柱八:物理动画 (Physics-based Animation)

关键词: 动态场景重建 几何监督 正弦表示网络 时序一致性 关键点检测

📋 核心要点

  1. 现有方法在动态场景重建中,难以处理快速运动、复杂交互和遮挡等问题,导致重建结果缺乏时空一致性。
  2. SirenPose利用正弦表示网络的高频信号建模能力,并结合几何约束,实现更精确和时序连贯的动态场景重建。
  3. 实验表明,SirenPose在多个数据集上显著优于现有方法,在时间一致性、几何精度和运动平滑度方面均有提升。

📝 摘要(中文)

SirenPose是一种几何感知的损失函数,它将正弦表示网络(SIREN)的周期性激活特性与基于关键点的几何监督相结合,从而能够从单目视频中准确且时序一致地重建动态3D场景。现有方法在快速运动、多对象交互、遮挡和快速场景变化等复杂场景中,通常难以保证运动的真实性和时空连贯性。SirenPose融入了受物理启发的约束,以增强空间和时间维度上关键点预测的连贯性,同时利用高频信号建模来捕捉细粒度的几何细节。此外,我们还将UniKPT数据集扩展到60万个带注释的实例,并集成图神经网络来建模关键点关系和结构相关性。在Sintel、Bonn和DAVIS等基准测试中进行的大量实验表明,SirenPose始终优于最先进的方法。在DAVIS上,SirenPose在FVD指标上降低了17.8%,FID指标上降低了28.7%,LPIPS指标上提高了6.0%(与MoSCA相比)。它还提高了时间一致性、几何精度、用户评分和运动平滑度。在姿态估计方面,SirenPose优于Monst3R,具有更低的绝对轨迹误差以及更小的平移和旋转相对姿态误差,突显了其在处理快速运动、复杂动力学和物理上合理的重建方面的有效性。

🔬 方法详解

问题定义:论文旨在解决从单目视频中重建动态3D场景的问题,尤其关注快速运动、复杂交互和遮挡等挑战性场景。现有方法在这些场景下往往难以保证重建结果的运动真实性和时空连贯性,导致重建质量下降。

核心思路:论文的核心思路是结合正弦表示网络(SIREN)的高频信号建模能力和基于关键点的几何监督。SIREN能够更好地表示场景的细节,而几何监督则通过约束关键点在时间和空间上的运动,保证重建结果的物理合理性和时序一致性。

技术框架:SirenPose的整体框架包括以下几个主要模块:1) 使用SIREN网络表示动态场景;2) 利用关键点检测器提取视频帧中的关键点;3) 通过图神经网络建模关键点之间的关系和结构相关性;4) 设计几何感知的损失函数,约束关键点在时间和空间上的运动,并优化SIREN网络的参数。

关键创新:SirenPose的关键创新在于:1) 提出了几何感知的损失函数,该函数能够有效地利用关键点信息来监督SIREN网络的训练,从而提高重建精度和时序一致性;2) 扩展了UniKPT数据集,并利用图神经网络建模关键点之间的关系,从而更好地理解场景的结构信息。

关键设计:在损失函数设计方面,论文考虑了关键点在时间和空间上的运动约束,例如,相邻帧之间的关键点运动应该平滑,关键点之间的距离应该保持相对稳定。在网络结构方面,论文使用了SIREN网络作为场景表示,并利用图神经网络建模关键点之间的关系。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SirenPose在DAVIS数据集上,相较于MoSCA,在FVD指标上降低了17.8%,FID指标上降低了28.7%,LPIPS指标上提高了6.0%。在姿态估计方面,SirenPose优于Monst3R,具有更低的绝对轨迹误差以及更小的平移和旋转相对姿态误差。

🎯 应用场景

SirenPose在机器人导航、自动驾驶、虚拟现实/增强现实等领域具有广泛的应用前景。它可以用于构建更逼真的虚拟环境,提高机器人对动态环境的感知能力,并为自动驾驶系统提供更准确的场景理解。

📄 摘要(原文)

We introduce SirenPose, a geometry-aware loss formulation that integrates the periodic activation properties of sinusoidal representation networks with keypoint-based geometric supervision, enabling accurate and temporally consistent reconstruction of dynamic 3D scenes from monocular videos. Existing approaches often struggle with motion fidelity and spatiotemporal coherence in challenging settings involving fast motion, multi-object interaction, occlusion, and rapid scene changes. SirenPose incorporates physics inspired constraints to enforce coherent keypoint predictions across both spatial and temporal dimensions, while leveraging high frequency signal modeling to capture fine grained geometric details. We further expand the UniKPT dataset to 600,000 annotated instances and integrate graph neural networks to model keypoint relationships and structural correlations. Extensive experiments on benchmarks including Sintel, Bonn, and DAVIS demonstrate that SirenPose consistently outperforms state-of-the-art methods. On DAVIS, SirenPose achieves a 17.8 percent reduction in FVD, a 28.7 percent reduction in FID, and a 6.0 percent improvement in LPIPS compared to MoSCA. It also improves temporal consistency, geometric accuracy, user score, and motion smoothness. In pose estimation, SirenPose outperforms Monst3R with lower absolute trajectory error as well as reduced translational and rotational relative pose error, highlighting its effectiveness in handling rapid motion, complex dynamics, and physically plausible reconstruction.