Generalizable Sparse-View 3D Reconstruction from Unconstrained Images
作者: Vinayak Gupta, Chih-Hao Lin, Shenlong Wang, Anand Bhattad, Jia-Bin Huang
分类: cs.CV
发布日期: 2026-04-30
备注: Project Page: https://genwildsplat.github.io/
💡 一句话要点
GenWildSplat:提出一种可泛化的稀疏视角三维重建框架,适用于无约束图像
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 三维重建 稀疏视角 无约束图像 几何先验 前馈网络
📋 核心要点
- 现有稀疏视角三维重建方法依赖于场景特定的优化,泛化性差,且在稀疏视角下表现不佳。
- GenWildSplat提出一种前馈框架,利用学习到的几何先验,直接从无约束图像中预测三维结构,无需场景特定优化。
- 在PhotoTourism和MegaScenes等基准测试中,GenWildSplat实现了最先进的前馈渲染质量,并支持实时推理。
📝 摘要(中文)
本文提出GenWildSplat,一个前馈框架,用于从稀疏、无姿态图像中重建三维场景,无需场景特定的优化。该方法利用学习到的几何先验,从无姿态的互联网图像中预测深度、相机参数和规范空间中的3D高斯分布。外观适配器调整目标光照条件下的外观,而语义分割处理瞬态对象。通过在合成和真实数据上的课程学习,GenWildSplat能够泛化到不同的光照和遮挡模式。在PhotoTourism和MegaScenes基准测试上的评估表明,该方法实现了最先进的前馈渲染质量,并实现了实时推理,无需测试时优化。
🔬 方法详解
问题定义:现有的稀疏视角三维重建方法通常需要针对每个场景进行优化,例如使用外观嵌入或动态掩码,这导致了高昂的计算成本和较差的泛化能力。尤其是在真实世界的场景中,光照变化和瞬态遮挡进一步加剧了这一问题。这些方法在稀疏视角下的性能也难以保证。
核心思路:GenWildSplat的核心思路是利用学习到的几何先验知识,直接从输入的无约束图像中预测场景的深度、相机参数和3D高斯分布。通过这种方式,避免了对每个场景进行单独优化,从而提高了泛化能力和推理速度。此外,该方法还引入了外观适配器和语义分割模块,分别用于处理光照变化和瞬态遮挡。
技术框架:GenWildSplat的整体框架是一个前馈网络,主要包含以下几个模块:1) 深度预测模块:用于预测输入图像的深度图。2) 相机参数估计模块:用于估计输入图像的相机姿态。3) 3D高斯分布预测模块:用于在规范空间中预测场景的3D高斯分布。4) 外观适配器:用于调整目标光照条件下的外观。5) 语义分割模块:用于分割和处理瞬态对象。整个流程无需测试时优化。
关键创新:GenWildSplat的关键创新在于其完全前馈的架构和对几何先验知识的利用。与需要场景特定优化的方法不同,GenWildSplat可以直接从图像中预测三维结构,从而实现了更好的泛化能力和更快的推理速度。此外,外观适配器和语义分割模块的引入,使得该方法能够更好地处理真实世界场景中的光照变化和瞬态遮挡。
关键设计:GenWildSplat使用了课程学习策略,在合成数据和真实数据上进行训练,以提高模型的泛化能力。具体来说,模型首先在合成数据上进行训练,然后逐步在真实数据上进行微调。外观适配器可能使用了注意力机制来选择性地调整外观特征。损失函数可能包括深度损失、相机姿态损失和渲染损失等,以确保预测的深度、相机参数和3D结构的准确性。
🖼️ 关键图片
📊 实验亮点
GenWildSplat在PhotoTourism和MegaScenes基准测试中取得了最先进的前馈渲染质量。实验结果表明,该方法在无需测试时优化的情况下,能够实现与需要场景特定优化的方法相媲美的性能,并且能够进行实时推理。这些结果验证了GenWildSplat的有效性和泛化能力。
🎯 应用场景
GenWildSplat在城市重建、自动驾驶、机器人导航等领域具有广泛的应用前景。它可以用于快速生成大规模城市的三维模型,为自动驾驶车辆提供准确的环境感知,并帮助机器人在复杂环境中进行导航。该研究的突破将加速三维重建技术在实际场景中的应用。
📄 摘要(原文)
Reconstructing 3D scenes from sparse, unposed images remains challenging under real-world conditions with varying illumination and transient occlusions. Existing methods rely on scene-specific optimization using appearance embeddings or dynamic masks, which requires extensive per-scene training and fails under sparse views. Moreover, evaluations on limited scenes raise questions about generalization. We present GenWildSplat, a feed-forward framework for sparse-view outdoor reconstruction that requires no per-scene optimization. Given unposed internet images, GenWildSplat predicts depth, camera parameters, and 3D Gaussians in a canonical space using learned geometric priors. An appearance adapter modulates appearance for target lighting conditions, while semantic segmentation handles transient objects. Through curriculum learning on synthetic and real data, GenWildSplat generalizes across diverse illumination and occlusion patterns. Evaluations on PhotoTourism and MegaScenes benchmark demonstrate state-of-the-art feed-forward rendering quality, achieving real-time inference without test-time optimization