World Reconstruction From Inconsistent Views

📄 arXiv: 2603.16736v1 📥 PDF

作者: Lukas Höllein, Matthias Nießner

分类: cs.CV

发布日期: 2026-03-17

备注: project website: https://lukashoel.github.io/video_to_world, video: https://www.youtube.com/watch?v=E4AU7G-WyMI, code: https://github.com/lukasHoel/video_to_world


💡 一句话要点

提出一种非刚性对齐方法,从不一致的视频帧中重建3D世界。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D重建 视频扩散模型 非刚性对齐 点云处理 逆变形渲染 计算机视觉 场景理解

📋 核心要点

  1. 视频扩散模型生成的帧缺乏3D一致性,导致难以重建高质量的3D世界。
  2. 提出一种非刚性迭代帧到模型ICP算法,并结合全局优化,实现视频帧的精确对齐。
  3. 通过逆变形渲染损失优化3D重建,实验表明该方法优于现有基线方法,提升了3D场景的质量。

📝 摘要(中文)

视频扩散模型能够生成高质量且多样化的世界,但单个帧之间通常缺乏3D一致性,这使得3D世界的重建变得困难。为了解决这个问题,我们提出了一种新方法,通过非刚性地将视频帧对齐到一个全局一致的坐标系中来处理这些不一致性,从而产生清晰且细节丰富的点云重建。首先,一个几何基础模型将每个帧提升为像素级的3D点云,由于这些不一致性,点云包含未对齐的表面。然后,我们提出了一种定制的非刚性迭代帧到模型ICP算法,以获得所有帧的初始对齐,然后进行全局优化,进一步锐化点云。最后,我们利用这个点云作为3D重建的初始化,并提出了一种新颖的逆变形渲染损失,以从不一致的视图中创建高质量且可探索的3D环境。我们证明了我们的3D场景比基线方法实现了更高的质量,有效地将视频模型变成了3D一致的世界生成器。

🔬 方法详解

问题定义:现有方法难以从视频扩散模型生成的不一致视频帧中重建高质量的3D世界。主要痛点在于帧间缺乏3D一致性,导致重建的点云存在未对齐的表面和模糊的细节。

核心思路:核心思路是通过非刚性对齐的方式,将视频帧校正到一个全局一致的坐标系中,从而消除帧间的不一致性。这种方法允许在存在噪声和不准确性的情况下,对齐来自不同视角的3D数据。

技术框架:该方法包含以下几个主要阶段:1) 使用几何基础模型将每个视频帧转换为3D点云;2) 使用定制的非刚性迭代帧到模型ICP算法进行初始对齐;3) 通过全局优化进一步锐化点云;4) 将锐化后的点云作为初始化,使用逆变形渲染损失进行3D重建。

关键创新:关键创新在于定制的非刚性迭代帧到模型ICP算法和逆变形渲染损失。非刚性ICP算法能够处理帧间较大的不一致性,而逆变形渲染损失则能够优化3D重建的质量,使其更加清晰和细节丰富。

关键设计:非刚性ICP算法的关键设计在于迭代地将每个帧的点云与全局模型对齐,同时允许局部变形。逆变形渲染损失的关键设计在于利用渲染图像与原始图像之间的差异来优化3D模型的几何形状和纹理。具体的参数设置和网络结构在论文中有详细描述,但此处未给出。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法生成的3D场景质量明显优于现有基线方法。通过非刚性对齐和逆变形渲染损失的优化,重建的点云更加清晰,细节更加丰富。具体的性能数据和对比结果在论文中有详细展示,证明了该方法在处理不一致视图重建3D世界方面的有效性。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、游戏开发等领域,能够从视频数据中自动生成高质量的3D场景。例如,可以利用该方法将用户拍摄的视频转换为可交互的3D环境,或者用于创建逼真的游戏场景。此外,该技术还可以用于机器人导航和场景理解等任务。

📄 摘要(原文)

Video diffusion models generate high-quality and diverse worlds; however, individual frames often lack 3D consistency across the output sequence, which makes the reconstruction of 3D worlds difficult. To this end, we propose a new method that handles these inconsistencies by non-rigidly aligning the video frames into a globally-consistent coordinate frame that produces sharp and detailed pointcloud reconstructions. First, a geometric foundation model lifts each frame into a pixel-wise 3D pointcloud, which contains unaligned surfaces due to these inconsistencies. We then propose a tailored non-rigid iterative frame-to-model ICP to obtain an initial alignment across all frames, followed by a global optimization that further sharpens the pointcloud. Finally, we leverage this pointcloud as initialization for 3D reconstruction and propose a novel inverse deformation rendering loss to create high quality and explorable 3D environments from inconsistent views. We demonstrate that our 3D scenes achieve higher quality than baselines, effectively turning video models into 3D-consistent world generators.