MonoPhysics: Estimating Geometry, Appearance, and Physical Parameters from Monocular Videos

📄 arXiv: 2605.30320v1 📥 PDF

作者: Daniel Rho, Jun Myeong Choi, Matthew Thornton, Biswadip Dey, Roni Sengupta

分类: cs.CV

发布日期: 2026-05-28

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

MonoPhysics:单目视频中几何、外观和物理参数的联合估计

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 单目视频 逆物理 可微渲染 3D高斯溅射 物质点方法 物理模拟 参数估计

📋 核心要点

  1. 传统逆物理方法依赖多视角视频,单目视频缺乏几何约束,导致尺度模糊和几何不准确。
  2. MonoPhysics利用可微MPM模拟和3D高斯溅射,从单目视频联合优化几何、外观和物理参数。
  3. 通过全局尺度对齐、物理感知几何细化和可微位置图,MonoPhysics在单目设置下表现优异。

📝 摘要(中文)

现有的逆物理方法通常从多视角视频中恢复物理参数,其中跨视角的几何约束可以解决尺度和3D结构问题。然而,在单目设置中,这种约束缺失,导致严重的尺度模糊、不准确的几何形状以及外观优化和物理模拟之间的弱耦合。我们提出了MonoPhysics,一个用于单目逆物理估计的框架,它利用可微的MPM模拟和3D高斯溅射,从单个相机视角联合优化可变形对象的几何形状、外观和物理参数。我们通过三个视觉-物理桥梁来解决这些挑战:全局尺度对齐、物理感知几何细化和一个可微的位置图,这些共同实现了仅从单目观测进行精确优化。我们在Vid2Sim和我们新的弹性及塑性对象数据集上进行了评估,结果表明MonoPhysics在单目设置中优于现有的基线方法,并且仅使用单个相机就实现了与多视角基线方法相当的性能。我们的项目页面位于https://daniel03c1.github.io/MonoPhysics/。

🔬 方法详解

问题定义:现有的逆物理方法在单目视频中面临严重的尺度模糊问题,导致几何形状估计不准确,并且外观优化与物理模拟之间的耦合较弱。这是因为单目视频缺乏多视角视频中存在的几何约束,难以准确恢复3D结构和尺度信息。

核心思路:MonoPhysics的核心思路是通过建立视觉和物理之间的桥梁,利用物理模拟的约束来辅助单目视频的几何和外观估计,从而解决尺度模糊和几何不准确的问题。具体来说,它联合优化几何形状、外观和物理参数,使得模拟结果与观测到的单目视频尽可能一致。

技术框架:MonoPhysics的整体框架包括以下几个主要模块:1) 使用3D高斯溅射表示场景几何和外观;2) 使用可微的物质点方法(MPM)进行物理模拟;3) 通过三个视觉-物理桥梁(全局尺度对齐、物理感知几何细化和可微位置图)将视觉信息和物理模拟连接起来;4) 使用优化算法联合优化几何形状、外观和物理参数。

关键创新:MonoPhysics的关键创新在于提出了三个视觉-物理桥梁,它们分别是:1) 全局尺度对齐:解决单目视频的尺度模糊问题,确保模拟结果的尺度与真实世界一致;2) 物理感知几何细化:利用物理模拟的约束来细化几何形状,提高几何估计的准确性;3) 可微位置图:建立视觉观测和物理模拟之间的可微连接,使得梯度可以从物理模拟传播到几何和外观参数。

关键设计:MonoPhysics的关键设计包括:1) 使用3D高斯溅射表示场景,可以实现高效的渲染和优化;2) 使用可微的MPM模拟,使得梯度可以传播到物理参数;3) 设计了专门的损失函数,用于衡量模拟结果与观测视频之间的差异,包括外观损失、物理损失等;4) 使用Adam优化器联合优化几何形状、外观和物理参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MonoPhysics在Vid2Sim数据集和作者自建的弹性及塑性对象数据集上进行了评估,实验结果表明,在单目设置下,MonoPhysics显著优于现有的基线方法。更重要的是,MonoPhysics仅使用单个相机就实现了与多视角基线方法相当的性能,这充分证明了其在单目逆物理估计方面的有效性。

🎯 应用场景

MonoPhysics在机器人操作、虚拟现实、游戏开发等领域具有广泛的应用前景。例如,可以用于训练机器人操作软物体的技能,创建更逼真的虚拟环境,或者为游戏中的可变形物体提供更真实的物理效果。该研究还有助于理解和建模真实世界中的物理现象。

📄 摘要(原文)

Existing inverse physics methods recover physical parameters from multi-view videos, where geometric constraints across views resolve scale and 3D structure. In monocular settings, however, such constraints are absent, leading to severe scale ambiguity, inaccurate geometry, and weak coupling between appearance optimization and physical simulation. We propose MonoPhysics, a framework for monocular inverse physics estimation of deformable objects using differentiable MPM simulation and 3D Gaussian Splatting, which jointly optimizes geometry, appearance, and physical parameters from a single camera view. We address these challenges through three visual-physical bridges: global scale alignment, physics-aware geometry refinement, and a differentiable position map, which together enable accurate optimization from monocular observations alone. We evaluate on Vid2Sim and our new dataset of elastic and plastic objects, showing that MonoPhysics outperforms existing baselines in monocular settings and achieves performance comparable to multi-view baselines using only a single camera. Our project page is available at https://daniel03c1.github.io/MonoPhysics/