Thin-Shell-SfT: Fine-Grained Monocular Non-rigid 3D Surface Tracking with Neural Deformation Fields
作者: Navami Kairanda, Marc Habermann, Shanthika Naik, Christian Theobalt, Vladislav Golyanik
分类: cs.GR, cs.CV, cs.LG
发布日期: 2025-03-25
备注: 15 pages, 12 figures and 3 tables; project page: https://4dqv.mpiinf.mpg.de/ThinShellSfT; CVPR 2025
💡 一句话要点
ThinShell-SfT:利用神经形变场进行精细单目非刚性3D表面追踪
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation)
关键词: 非刚性3D重建 单目视觉 神经形变场 薄壳物理先验 3D高斯Splatting
📋 核心要点
- 现有单目非刚性3D重建方法难以准确恢复精细表面细节,如布料褶皱,主要受限于离散表面表示和逐帧优化。
- ThinShell-SfT采用连续时空神经场表示表面,并结合连续薄壳物理先验进行正则化,避免了离散化和误差累积。
- 该方法利用3D高斯splatting进行可微渲染和形变优化,实验结果表明其在表面细节恢复方面优于现有技术。
📝 摘要(中文)
本文提出ThinShell-SfT,一种用于非刚性3D追踪的新方法,旨在解决从单目RGB视频中重建高度可变形表面(如布料)时,难以一致且精确地恢复精细表面细节的问题。现有方法通常依赖于统计、神经或物理先验的形变模型,以及非自适应的离散表面表示(如多边形网格),并执行逐帧优化,导致误差累积和基于网格的可微渲染器梯度不良。ThinShell-SfT将表面表示为隐式和连续的时空神经场,并结合基于Kirchhoff-Love模型的连续薄壳物理先验进行空间正则化,这与早期工作的离散化替代方案形成鲜明对比。此外,利用3D高斯splatting将表面可微地渲染到图像空间,并基于分析-综合原则优化形变。实验结果表明,ThinShell-SfT优于现有方法,这归功于其连续表面公式、定制的模拟先验和表面诱导的3D高斯。
🔬 方法详解
问题定义:论文旨在解决单目RGB视频中高度可变形表面(例如布料)的3D重建问题。现有方法主要痛点在于无法一致且精确地恢复精细的表面细节,例如布料的褶皱。现有方法依赖于离散的表面表示(例如网格),逐帧优化导致误差累积,并且基于网格的可微渲染器梯度表现不佳。
核心思路:论文的核心思路是将表面表示为一个隐式和连续的时空神经场,并结合连续的薄壳物理先验进行空间正则化。这种连续表示避免了离散化带来的问题,并允许更精确地捕捉表面的形变。同时,利用物理先验来约束表面的形变,使其更加合理。
技术框架:ThinShell-SfT的整体框架包括以下几个主要模块:1) 使用隐式神经场表示表面;2) 使用基于Kirchhoff-Love模型的连续薄壳物理先验进行空间正则化;3) 使用3D高斯splatting进行可微渲染;4) 基于分析-综合原则优化形变。该方法首先从单目RGB视频中提取图像特征,然后使用神经场将这些特征映射到3D空间中的表面。接下来,使用薄壳物理先验对表面的形变进行约束。最后,使用3D高斯splatting将表面渲染到图像空间,并计算渲染图像与输入图像之间的差异,从而优化神经场的参数。
关键创新:该方法最重要的技术创新点在于使用连续的神经场表示表面,并结合连续的薄壳物理先验进行正则化。与现有方法使用的离散表面表示和离散物理先验相比,该方法能够更精确地捕捉表面的形变,并避免离散化带来的问题。此外,使用3D高斯splatting进行可微渲染也提高了渲染的效率和质量。
关键设计:论文的关键设计包括:1) 使用MLP网络表示隐式神经场,网络的输入是3D空间坐标和时间戳,输出是表面的密度和颜色;2) 使用Kirchhoff-Love薄壳模型计算表面的弯曲能量,并将其作为正则化项添加到损失函数中;3) 使用3D高斯splatting进行可微渲染,每个高斯由其中心位置、协方差矩阵和颜色表示;4) 损失函数包括图像重建损失、物理先验损失和正则化损失。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ThinShell-SfT在重建精度和表面细节恢复方面优于现有方法。与基线方法相比,ThinShell-SfT能够更准确地捕捉布料的褶皱和纹理等细节。定量评估指标显示,ThinShell-SfT在表面重建误差方面取得了显著的降低。
🎯 应用场景
ThinShell-SfT在虚拟试衣、电影特效、游戏开发等领域具有广泛的应用前景。它可以用于创建逼真的虚拟服装,模拟布料的运动和形变,从而提高用户体验。此外,该方法还可以用于重建其他类型的可变形表面,例如人体、动物等,从而为相关领域的研究提供新的工具和方法。
📄 摘要(原文)
3D reconstruction of highly deformable surfaces (e.g. cloths) from monocular RGB videos is a challenging problem, and no solution provides a consistent and accurate recovery of fine-grained surface details. To account for the ill-posed nature of the setting, existing methods use deformation models with statistical, neural, or physical priors. They also predominantly rely on nonadaptive discrete surface representations (e.g. polygonal meshes), perform frame-by-frame optimisation leading to error propagation, and suffer from poor gradients of the mesh-based differentiable renderers. Consequently, fine surface details such as cloth wrinkles are often not recovered with the desired accuracy. In response to these limitations, we propose ThinShell-SfT, a new method for non-rigid 3D tracking that represents a surface as an implicit and continuous spatiotemporal neural field. We incorporate continuous thin shell physics prior based on the Kirchhoff-Love model for spatial regularisation, which starkly contrasts the discretised alternatives of earlier works. Lastly, we leverage 3D Gaussian splatting to differentiably render the surface into image space and optimise the deformations based on analysis-bysynthesis principles. Our Thin-Shell-SfT outperforms prior works qualitatively and quantitatively thanks to our continuous surface formulation in conjunction with a specially tailored simulation prior and surface-induced 3D Gaussians. See our project page at https://4dqv.mpiinf.mpg.de/ThinShellSfT.