GaMO: Geometry-aware Multi-view Diffusion Outpainting for Sparse-View 3D Reconstruction
作者: Yi-Chuan Huang, Hao-Jen Chien, Chin-Yang Lin, Ying-Huan Chen, Yu-Lun Liu
分类: cs.CV
发布日期: 2026-04-07
💡 一句话要点
GaMO:基于几何感知的多视角扩散外绘,用于稀疏视角三维重建
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)
关键词: 三维重建 稀疏视角 多视角外绘 扩散模型 几何感知 零样本学习 计算机视觉
📋 核心要点
- 现有三维重建方法在密集多视角图像下表现出色,但在稀疏视角下效果不佳,面临覆盖范围不足、几何不一致和计算效率低下的挑战。
- GaMO通过多视角外绘扩展现有视角的视野,而非生成新的视点,从而在扩大场景覆盖范围的同时,天然地保持了几何一致性。
- GaMO在Replica、ScanNet++和Mip-NeRF 360数据集上,使用3、6和9个稀疏视角进行重建,实验结果表明其性能优于现有方法,且效率显著提升。
📝 摘要(中文)
本文提出了一种名为GaMO(Geometry-aware Multi-view Outpainter)的框架,通过多视角外绘来重新构建稀疏视角三维重建问题。与生成新视点不同,GaMO从现有相机姿态扩展视野,从而在提供更广泛场景覆盖的同时,固有地保持了几何一致性。该方法采用多视角条件和几何感知去噪策略,以零样本方式运行,无需训练。在Replica、ScanNet++和Mip-NeRF 360上的大量实验表明,该方法在稀疏视角设置(3、6和9个输入视角)下具有强大的重建性能。值得注意的是,我们的方法比现有的基于扩散的方法效率更高,将总运行时间缩短到10分钟以内。
🔬 方法详解
问题定义:现有的稀疏视角三维重建方法在视角数量有限的情况下,难以生成完整且几何一致的三维模型。它们通常存在视野覆盖范围不足,生成的视角之间几何不一致,以及计算复杂度过高的问题,导致重建质量和效率都受到限制。
核心思路:GaMO的核心思路是将稀疏视角三维重建问题转化为多视角外绘问题。通过从现有相机姿态向外扩展视野,而不是生成全新的相机姿态,可以更好地利用已有的几何信息,并保持生成图像之间的几何一致性。这种方法避免了传统方法中生成新视点带来的不确定性和误差累积。
技术框架:GaMO的整体框架包含多视角条件和几何感知去噪两个主要模块。首先,利用现有的稀疏视角图像作为条件输入。然后,通过一个扩散模型进行外绘,该扩散模型在去噪过程中融入了几何感知信息,以确保生成图像的几何一致性。整个过程以零样本方式进行,无需额外的训练数据。
关键创新:GaMO的关键创新在于将多视角外绘与几何感知去噪相结合,用于解决稀疏视角三维重建问题。与现有方法相比,GaMO直接扩展现有视角,避免了生成新视点带来的几何不确定性,从而提高了重建的几何一致性和效率。此外,零样本的学习方式也使得该方法具有更强的泛化能力。
关键设计:GaMO的关键设计包括:1) 多视角条件:利用所有可用的稀疏视角图像作为扩散模型的条件输入,以提供更全面的场景信息。2) 几何感知去噪:在扩散模型的去噪过程中,引入几何约束,例如利用深度信息或视差信息来指导图像的生成,从而保证生成图像的几何一致性。3) 零样本学习:避免了对特定数据集的训练,使得该方法可以应用于各种场景,而无需进行额外的微调。
🖼️ 关键图片
📊 实验亮点
GaMO在Replica、ScanNet++和Mip-NeRF 360数据集上进行了广泛的实验,结果表明,在3、6和9个稀疏视角下,GaMO的重建性能优于现有的基于扩散的方法。更重要的是,GaMO的计算效率显著提高,将总运行时间缩短到10分钟以内,这使得该方法更具实用性。
🎯 应用场景
GaMO在机器人导航、自动驾驶、虚拟现实、增强现实等领域具有广泛的应用前景。例如,在机器人导航中,可以利用少量的摄像头图像重建周围环境的三维模型,帮助机器人进行路径规划和避障。在虚拟现实和增强现实中,可以利用该方法快速生成高质量的三维场景,提升用户体验。此外,该方法还可以应用于文物保护、城市建模等领域。
📄 摘要(原文)
Recent 3D reconstruction methods achieve impressive results with dense multi-view imagery but struggle when only a few views are available. Various approaches, including regularization techniques, semantic priors, and geometric constraints, have been implemented to address this challenge. Recent diffusion-based approaches further improve performance by generating novel views to augment training data. Despite this progress, we identify three critical limitations in current state-of-the-art approaches: (i) inadequate coverage beyond known view peripheries, (ii) geometric inconsistencies across generated views, and (iii) computational inefficiency due to expensive pipelines. We introduce GaMO (Geometry-aware Multi-view Outpainter), a framework that reformulates sparse-view reconstruction through multi-view outpainting. Instead of generating new viewpoints, GaMO expands the field of view from existing camera poses, which inherently preserves geometric consistency while providing broader scene coverage. Our approach employs multi-view conditioning and geometry-aware denoising strategies in a zero-shot manner without training. Extensive experiments on Replica, ScanNet++, and Mip-NeRF 360 demonstrate strong reconstruction performance across sparse-view settings (3, 6, and 9 input views). Notably, our method is significantly more efficient than existing diffusion-based approaches, reducing the overall runtime to within 10 minutes. Project page:this https URL