ReconPhys: Reconstruct Appearance and Physical Attributes from Single Video

📄 arXiv: 2604.07882v1 📥 PDF

作者: Boyuan Wang, Xiaofeng Wang, Yongkang Li, Zheng Zhu, Yifan Chang, Angen Ye, Guosheng Zhao, Chaojun Ni, Guan Huang, Yijie Ren, Yueqi Duan, Xingang Wang

分类: cs.CV

发布日期: 2026-04-09


💡 一句话要点

ReconPhys:提出单目视频重建外观和物理属性的快速前馈框架

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 非刚性物体重建 物理属性估计 3D高斯溅射 自监督学习 单目视频 前馈网络 可微渲染

📋 核心要点

  1. 现有非刚性物体重建方法依赖可微渲染,需逐场景优化和手动标注,泛化性差且耗时。
  2. ReconPhys提出一种自监督双分支前馈网络,从单目视频联合学习物理属性估计和3D高斯溅射重建。
  3. 实验表明,ReconPhys在未来预测和几何重建方面显著优于现有方法,且推理速度极快。

📝 摘要(中文)

重建具有物理合理性的非刚性物体仍然是一个重大挑战。现有方法利用可微渲染进行逐场景优化,恢复几何形状和动力学,但需要昂贵的调整或手动标注,这限制了实用性和泛化性。为了解决这个问题,我们提出了ReconPhys,这是第一个从单个单目视频中联合学习物理属性估计和3D高斯溅射重建的前馈框架。我们的方法采用通过自监督策略训练的双分支架构,无需真实的物理标签。给定一个视频序列,ReconPhys同时推断几何形状、外观和物理属性。在大型合成数据集上的实验表明,该方法表现优异:与最先进的优化基线相比,我们的方法在未来预测中实现了21.64 PSNR,而基线为13.27,同时将Chamfer距离从0.349降低到0.004。至关重要的是,ReconPhys能够实现快速推理(<1秒),而现有方法需要数小时,从而有助于为机器人和图形快速生成可用于仿真的资产。

🔬 方法详解

问题定义:现有方法在重建具有物理合理性的非刚性物体时,依赖于可微渲染进行逐场景优化,需要耗时的参数调整和人工标注,导致泛化能力不足,难以应用于实际场景。这些方法无法快速生成可用于仿真的资产,限制了其在机器人和图形领域的应用。

核心思路:ReconPhys的核心思路是利用一个前馈神经网络,直接从单目视频中学习物体的几何形状、外观和物理属性,避免了耗时的优化过程和人工标注。通过自监督学习策略,网络可以从视频数据中自动学习物理规律,无需额外的物理标签。

技术框架:ReconPhys采用双分支架构。一个分支负责估计物体的物理属性,例如质量、刚度等。另一个分支负责使用3D高斯溅射(3D Gaussian Splatting)重建物体的几何形状和外观。这两个分支共享一部分网络参数,并相互约束,以保证重建结果的物理合理性。整个框架采用端到端的方式进行训练。

关键创新:ReconPhys的关键创新在于提出了一种完全前馈的框架,能够从单目视频中快速重建具有物理合理性的非刚性物体。与现有方法相比,ReconPhys无需逐场景优化和人工标注,具有更好的泛化能力和更高的效率。此外,ReconPhys还提出了一种自监督学习策略,无需真实的物理标签即可训练网络。

关键设计:ReconPhys的关键设计包括:1) 使用双分支架构分别估计物理属性和重建几何形状;2) 采用3D高斯溅射进行几何重建,能够高效地表示复杂的非刚性物体;3) 设计自监督损失函数,包括几何一致性损失、物理一致性损失等,以保证重建结果的物理合理性。具体的网络结构和参数设置在论文中有详细描述,但此处未提供。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ReconPhys在合成数据集上取得了显著的性能提升。在未来预测任务中,ReconPhys的PSNR达到了21.64,而最先进的优化基线只有13.27。在几何重建方面,ReconPhys的Chamfer距离从0.349降低到0.004。更重要的是,ReconPhys的推理速度非常快,可以在1秒内完成重建,而现有方法需要数小时。

🎯 应用场景

ReconPhys具有广泛的应用前景,例如机器人仿真、虚拟现实、游戏开发等。它可以用于快速生成具有物理合理性的虚拟物体,用于训练机器人或创建逼真的虚拟环境。此外,ReconPhys还可以用于分析真实物体的物理属性,例如用于材料科学研究或产品设计。

📄 摘要(原文)

Reconstructing non-rigid objects with physical plausibility remains a significant challenge. Existing approaches leverage differentiable rendering for per-scene optimization, recovering geometry and dynamics but requiring expensive tuning or manual annotation, which limits practicality and generalizability. To address this, we propose ReconPhys, the first feedforward framework that jointly learns physical attribute estimation and 3D Gaussian Splatting reconstruction from a single monocular video. Our method employs a dual-branch architecture trained via a self-supervised strategy, eliminating the need for ground-truth physics labels. Given a video sequence, ReconPhys simultaneously infers geometry, appearance, and physical attributes. Experiments on a large-scale synthetic dataset demonstrate superior performance: our method achieves 21.64 PSNR in future prediction compared to 13.27 by state-of-the-art optimization baselines, while reducing Chamfer Distance from 0.349 to 0.004. Crucially, ReconPhys enables fast inference (<1 second) versus hours required by existing methods, facilitating rapid generation of simulation-ready assets for robotics and graphics.