GaMO: Geometry-aware Multi-view Diffusion Outpainting for Sparse-View 3D Reconstruction

📄 arXiv: 2512.25073v1 📥 PDF

作者: Yi-Chuan Huang, Hao-Jen Chien, Chin-Yang Lin, Ying-Huan Chen, Yu-Lun Liu

分类: cs.CV

发布日期: 2025-12-31

备注: Project page: https://yichuanh.github.io/GaMO/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

GaMO:基于几何感知的多视角扩散外绘用于稀疏视角3D重建

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 3D重建 稀疏视角 多视角外绘 扩散模型 几何感知 零样本学习 视图合成

📋 核心要点

  1. 现有3D重建方法在密集多视角图像中表现出色,但在输入视角有限时效果不佳,几何一致性难以保证。
  2. GaMO通过多视角外绘扩展现有相机视野,而非生成新视点,从而在本质上保持了几何一致性,并扩大了场景覆盖范围。
  3. 实验表明,GaMO在稀疏视角下实现了最先进的重建质量,并在速度上显著优于现有的基于扩散的方法。

📝 摘要(中文)

本文提出GaMO(Geometry-aware Multi-view Outpainter),一个通过多视角外绘重新构建稀疏视角3D重建的框架。与生成新视点不同,GaMO从现有相机姿态扩展视野,从而固有地保持了几何一致性,同时提供了更广泛的场景覆盖。该方法采用多视角条件和几何感知去噪策略,以零样本方式运行,无需训练。在Replica和ScanNet++上的大量实验表明,在3、6和9个输入视角下,该方法实现了最先进的重建质量,在PSNR和LPIPS方面优于现有方法,同时比最先进的基于扩散的方法实现了25倍的加速,处理时间在10分钟以内。

🔬 方法详解

问题定义:现有的基于扩散的稀疏视角3D重建方法存在三个主要问题:视野覆盖范围不足(无法有效扩展到已知视角的周边区域之外)、生成视图之间的几何不一致性,以及计算成本高昂。这些问题限制了它们在实际应用中的可行性。

核心思路:GaMO的核心思路是将稀疏视角3D重建问题转化为多视角外绘问题。通过从现有相机姿态扩展视野,而不是生成全新的相机姿态,可以自然地保持生成视图之间的几何一致性,并提供更广泛的场景覆盖。这种方法避免了生成新视点带来的几何不确定性。

技术框架:GaMO框架主要包含以下几个关键模块:1) 多视角条件模块:利用多个输入视角的图像信息作为条件,引导外绘过程。2) 几何感知去噪模块:在扩散模型的去噪过程中,融入几何信息,以确保生成图像的几何一致性。3) 零样本外绘:整个框架以零样本方式运行,无需额外的训练数据。

关键创新:GaMO最重要的技术创新在于将多视角外绘引入稀疏视角3D重建,并设计了几何感知的去噪策略。与以往生成新视点的方法不同,GaMO通过扩展现有视点来保持几何一致性,这是一种更有效且更稳定的方法。此外,零样本的运行方式也避免了对大量训练数据的依赖。

关键设计:GaMO的关键设计包括:1) 多视角条件的融合方式,如何有效地将多个视角的图像信息整合到扩散模型的去噪过程中。2) 几何感知去噪模块的具体实现,例如,可以使用深度信息或法线信息来约束去噪过程,保证生成图像的几何合理性。3) 扩散模型的选择和参数设置,例如,可以使用预训练的扩散模型,并根据具体任务进行微调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GaMO在Replica和ScanNet++数据集上进行了广泛的实验,结果表明,在3、6和9个输入视角下,GaMO在PSNR和LPIPS指标上均优于现有方法,实现了最先进的重建质量。更重要的是,GaMO比最先进的基于扩散的方法实现了25倍的加速,处理时间在10分钟以内,显著提高了重建效率。

🎯 应用场景

GaMO在机器人导航、自动驾驶、虚拟现实和增强现实等领域具有广泛的应用前景。它可以帮助机器人或自动驾驶系统在只有少量视角信息的情况下,更完整地理解周围环境,从而做出更准确的决策。在VR/AR领域,GaMO可以用于生成更逼真的3D场景,提升用户体验。此外,该技术还可以应用于文物保护和数字化重建等领域。

📄 摘要(原文)

Recent advances in 3D reconstruction have achieved remarkable progress in high-quality scene capture from dense multi-view imagery, yet struggle when input views are limited. Various approaches, including regularization techniques, semantic priors, and geometric constraints, have been implemented to address this challenge. Latest diffusion-based methods have demonstrated substantial improvements by generating novel views from new camera poses to augment training data, surpassing earlier regularization and prior-based techniques. Despite this progress, we identify three critical limitations in these state-of-the-art approaches: inadequate coverage beyond known view peripheries, geometric inconsistencies across generated views, and computationally expensive pipelines. We introduce GaMO (Geometry-aware Multi-view Outpainter), a framework that reformulates sparse-view reconstruction through multi-view outpainting. Instead of generating new viewpoints, GaMO expands the field of view from existing camera poses, which inherently preserves geometric consistency while providing broader scene coverage. Our approach employs multi-view conditioning and geometry-aware denoising strategies in a zero-shot manner without training. Extensive experiments on Replica and ScanNet++ demonstrate state-of-the-art reconstruction quality across 3, 6, and 9 input views, outperforming prior methods in PSNR and LPIPS, while achieving a $25\times$ speedup over SOTA diffusion-based methods with processing time under 10 minutes. Project page: https://yichuanh.github.io/GaMO/