MotionCrafter: Dense Geometry and Motion Reconstruction with a 4D VAE

作者: Ruijie Zhu, Jiahao Lu, Wenbo Hu, Xiaoguang Han, Jianfei Cai, Ying Shan, Chuanxia Zheng

分类: cs.CV, cs.AI, cs.CG, cs.LG

发布日期: 2026-02-09

备注: Project page: https://ruijiezhu94.github.io/MotionCrafter_Page

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出MotionCrafter以解决单目视频中的4D几何与运动重建问题

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 4D几何重建 密集运动估计 变分自编码器 视频扩散 单目视频理解

📋 核心要点

现有方法在从单目视频中重建4D几何和运动时，往往面临数据对齐和性能优化的挑战。
本论文提出了一种新颖的联合表示方法，利用4D VAE有效学习密集3D点图和场流，避免了严格对齐的限制。
实验结果显示，MotionCrafter在多个数据集上实现了几何和运动重建的显著提升，分别提高了38.64%和25.0%。

📝 摘要（中文）

我们介绍了MotionCrafter，一个基于视频扩散的框架，能够从单目视频中联合重建4D几何并估计密集运动。我们的方法核心在于一种新颖的密集3D点图和3D场流的联合表示，采用共享坐标系统，并利用一种新的4D变分自编码器(VAE)有效学习该表示。与以往强制3D值与RGB VAE潜变量严格对齐的工作不同，我们表明这种对齐并非必要，且会导致次优性能。相反，我们引入了一种新的数据归一化和VAE训练策略，更好地传递扩散先验，显著提高重建质量。大量实验表明，MotionCrafter在几何重建和密集场流估计方面均实现了最先进的性能，几何和运动重建分别提升了38.64%和25.0%，且无需后期优化。

🔬 方法详解

问题定义：本论文旨在解决从单目视频中重建4D几何和估计密集运动的问题。现有方法通常强制3D值与RGB VAE潜变量对齐，导致性能不佳。

核心思路：我们提出了一种新颖的联合表示方法，利用共享坐标系统来表示密集3D点图和3D场流，采用4D VAE进行有效学习，避免了对齐的限制。

技术框架：整体架构包括数据归一化、4D VAE训练和重建模块。首先对输入数据进行归一化处理，然后通过4D VAE学习联合表示，最后进行几何和运动的重建。

关键创新：最重要的创新在于引入了一种新的数据归一化和VAE训练策略，显著改善了重建质量，与传统方法相比，避免了严格对齐的必要性。

关键设计：在参数设置上，我们优化了VAE的超参数，并设计了适应性损失函数，以提高重建的准确性和稳定性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MotionCrafter在几何重建和密集场流估计方面均达到了最先进的性能，几何重建提升了38.64%，运动重建提升了25.0%。这些结果在多个数据集上均得到了验证，且无需后期优化，显示出其优越性。

🎯 应用场景

该研究的潜在应用领域包括虚拟现实、增强现实和机器人导航等。通过精确的4D几何和运动重建，MotionCrafter能够为这些领域提供更高质量的环境理解和交互体验，未来可能推动相关技术的进一步发展。

📄 摘要（原文）

We introduce MotionCrafter, a video diffusion-based framework that jointly reconstructs 4D geometry and estimates dense motion from a monocular video. The core of our method is a novel joint representation of dense 3D point maps and 3D scene flows in a shared coordinate system, and a novel 4D VAE to effectively learn this representation. Unlike prior work that forces the 3D value and latents to align strictly with RGB VAE latents-despite their fundamentally different distributions-we show that such alignment is unnecessary and leads to suboptimal performance. Instead, we introduce a new data normalization and VAE training strategy that better transfers diffusion priors and greatly improves reconstruction quality. Extensive experiments across multiple datasets demonstrate that MotionCrafter achieves state-of-the-art performance in both geometry reconstruction and dense scene flow estimation, delivering 38.64% and 25.0% improvements in geometry and motion reconstruction, respectively, all without any post-optimization. Project page: https://ruijiezhu94.github.io/MotionCrafter_Page

MotionCrafter: Dense Geometry and Motion Reconstruction with a 4D VAE

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理