VolFill: Single-View Amodal 3D Scene Reconstruction with Volumetric Flow Matching

📄 arXiv: 2605.31466v1 📥 PDF

作者: Tuan Duc Ngo, Chuang Gan, Evangelos Kalogerakis

分类: cs.CV

发布日期: 2026-05-29


💡 一句话要点

VolFill:利用体素流匹配的单视角非完整3D场景重建

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 单视角重建 3D场景重建 体素流匹配 生成模型 扩散模型 VAE Transformer 空间推理

📋 核心要点

  1. 现有单视角3D场景重建方法难以推断视觉信息缺失的隐藏结构,重建质量受限。
  2. VolFill提出一种生成式框架,通过混合3D VAE和扩散Transformer,从潜在空间恢复完整场景的3D结构。
  3. 实验表明,VolFill在SCRREAM和NRGB-D数据集上显著优于现有基线,提升了整体空间理解能力。

📝 摘要(中文)

从单张RGB图像重建场景的完整几何结构仍然具有挑战性,尤其是在推断视觉证据不完整的隐藏结构时。我们提出了VolFill,一个生成式框架,用于预测完整场景的3D结构,而不是依赖于传统的像素对齐回归。我们的方法利用混合3D VAE将稀疏截断无符号距离函数网格压缩到紧凑的潜在空间,并结合潜在扩散Transformer来对该表示进行去噪,以恢复完整的场景。我们以几何基础模型为条件进行生成,利用丰富的空间先验进行鲁棒的推理。与现有方法受限于每条光线的约束或非结构化点云查询不同,VolFill提供了一种结构化的表示,支持直接表面提取和大规模的占用查询。在SCRREAM和NRGB-D数据集上的大量实验表明,我们的方法显著优于当前的基线,为整体空间理解提供了强大的基础。

🔬 方法详解

问题定义:论文旨在解决从单张RGB图像进行完整3D场景重建的问题,尤其关注如何推断被遮挡的、视觉信息不完整的区域。现有方法通常依赖于像素对齐的回归或者非结构化的点云查询,难以有效地利用空间先验知识,导致重建结果不完整或不准确。

核心思路:论文的核心思路是利用生成模型学习场景的3D结构分布,并通过扩散过程从噪声中恢复完整的场景几何。通过将稀疏的截断无符号距离函数(TSDF)网格编码到紧凑的潜在空间,并使用扩散Transformer进行去噪,可以有效地利用空间先验知识,从而推断出被遮挡区域的结构。

技术框架:VolFill的整体框架包含以下几个主要模块:1) 混合3D VAE:用于将稀疏的TSDF网格编码到低维潜在空间。2) 潜在扩散Transformer:用于对潜在空间中的表示进行去噪,从而恢复完整的场景几何。3) 几何基础模型:用于提供空间先验知识,指导生成过程。整个流程是从单张RGB图像开始,通过编码器得到TSDF网格,然后使用VAE压缩到潜在空间,最后通过扩散Transformer进行去噪和重建。

关键创新:VolFill的关键创新在于将生成模型和扩散模型应用于单视角3D场景重建,并结合几何基础模型来提供空间先验。与传统的回归方法不同,VolFill能够学习场景的整体结构分布,从而更好地推断被遮挡区域的几何信息。此外,VolFill使用结构化的体素表示,支持直接的表面提取和占用查询,方便后续应用。

关键设计:VolFill使用混合3D VAE来编码TSDF网格,VAE的设计包括一个编码器和一个解码器,编码器将TSDF网格映射到潜在空间,解码器则从潜在空间重建TSDF网格。扩散Transformer使用Transformer架构,通过多头注意力机制学习潜在空间中的依赖关系。损失函数包括VAE的重建损失和扩散模型的去噪损失。几何基础模型通过条件生成的方式融入到扩散过程中,引导生成过程符合场景的几何先验。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VolFill在SCRREAM和NRGB-D数据集上取得了显著的性能提升,大幅超越了现有基线方法。实验结果表明,VolFill能够更准确地重建场景的完整几何结构,尤其是在被遮挡区域的重建方面表现出色。具体的数据指标和提升幅度在论文中有详细的展示。

🎯 应用场景

VolFill在机器人导航、虚拟现实、增强现实等领域具有广泛的应用前景。它可以用于构建场景的完整3D模型,帮助机器人更好地理解周围环境,从而实现更智能的导航和交互。在虚拟现实和增强现实中,VolFill可以用于生成逼真的3D场景,提升用户体验。此外,该技术还可以应用于3D场景编辑、游戏开发等领域。

📄 摘要(原文)

Reconstructing the complete geometry of a scene from a single RGB image remains challenging - especially when inferring hidden structures where visual evidence is incomplete. We introduce VolFill, a generative framework that predicts the 3D structure of the complete scene rather than relying on traditional pixel-aligned regression. Our method utilizes a hybrid 3D VAE to compress sparse truncated unsigned distance function grids into a compact latent space, paired with a latent Diffusion Transformer that denoises this representation to recover the complete scene. We condition the generation on geometry foundation models, leveraging rich spatial priors for robust reasoning. Unlike existing methods limited by per-ray constraints or unstructured point-cloud queries, VolFill provides a structured representation that supports direct surface extraction and occupancy queries at scale. Extensive experiments on the SCRREAM and NRGB-D datasets demonstrate that our approach significantly outperforms current baselines, providing a robust foundation for holistic spatial understanding.