Free-Range Gaussians: Non-Grid-Aligned Generative 3D Gaussian Reconstruction
作者: Ahan Shabanov, Peter Hedman, Ethan Weber, Zhengqin Li, Denis Rozumny, Gael Le Lan, Naina Dhingra, Lei Luo, Andrea Vedaldi, Christian Richardt, Andrea Tagliasacchi, Bo Zhu, Numair Khan
分类: cs.CV
发布日期: 2026-04-07
💡 一句话要点
提出Free-Range Gaussians,解决少视图下非网格对齐的3D高斯重建问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)
关键词: 3D重建 高斯表示 生成模型 流匹配 多视图几何
📋 核心要点
- 现有3D高斯重建方法依赖网格对齐,导致冗余、空洞和模糊等问题,尤其在少视图情况下表现不佳。
- Free-Range Gaussians通过高斯参数上的流匹配,实现非网格对齐的生成式重建,从而合成未观测区域的合理内容。
- 实验表明,该方法在Objaverse和Google Scanned Objects数据集上,使用更少高斯分布的情况下,显著优于现有方法。
📝 摘要(中文)
本文提出Free-Range Gaussians,一种多视图重建方法,能够仅从少量(如四个)图像中预测非像素、非体素对齐的3D高斯分布。该方法通过高斯参数上的流匹配实现。这种生成式的重建方法允许模型在非网格对齐的3D数据上进行监督,并能够在未观察到的区域合成合理的内容。因此,它改进了先前产生高度冗余的网格对齐高斯分布的方法,并克服了未观察区域中空洞或模糊条件均值的问题。为了处理高质量结果所需的大量高斯分布,我们引入了一种分层修补方案,将空间相关的多个高斯分布分组到联合Transformer tokens中,在保留结构的同时将序列长度减半。此外,我们提出了训练期间的时步加权渲染损失,以及推理时的光度梯度引导和无分类器引导,以提高保真度。在Objaverse和Google Scanned Objects上的实验表明,与像素和体素对齐的方法相比,该方法在使用显著更少的高斯分布的情况下,实现了持续的改进,尤其是在输入视图遗漏了对象的部分区域时,增益更大。
🔬 方法详解
问题定义:论文旨在解决从少量图像中重建高质量3D高斯模型的问题。现有方法,特别是基于像素或体素对齐的高斯表示,存在冗余度高、未观测区域重建质量差(出现空洞或模糊)等问题。这些问题在少视图重建场景下尤为突出,限制了重建模型的真实感和泛化能力。
核心思路:论文的核心思路是采用生成式建模方法,直接预测非网格对齐的3D高斯分布。通过在连续高斯参数空间上进行流匹配,模型能够学习到从图像到3D高斯分布的映射关系。这种非网格对齐的表示方式避免了冗余,并允许模型在未观测区域进行合理的推断和合成。
技术框架:整体框架包含以下几个主要模块:1) 多视图图像输入;2) 高斯参数预测网络(基于流匹配);3) 分层修补模块,用于减少高斯数量并保留结构信息;4) 渲染模块,将3D高斯投影到2D图像;5) 损失函数计算模块,包括时步加权渲染损失等。在推理阶段,采用光度梯度引导和无分类器引导来提升重建质量。
关键创新:论文的关键创新在于:1) 提出了一种非网格对齐的3D高斯表示方法,避免了冗余并提升了重建质量;2) 引入了基于流匹配的生成式重建框架,允许模型在未观测区域进行合理推断;3) 提出了分层修补方案,有效减少了高斯数量,降低了计算复杂度;4) 采用了时步加权渲染损失、光度梯度引导和无分类器引导等技术,进一步提升了重建的保真度。
关键设计:分层修补方案将空间上相邻的高斯分布分组为Transformer tokens,减少序列长度。时步加权渲染损失对训练初期和后期的渲染结果进行不同程度的加权,平衡训练过程。光度梯度引导利用图像梯度信息来优化高斯参数,提升重建细节。无分类器引导通过随机丢弃部分条件信息,增强模型的泛化能力。
📊 实验亮点
实验结果表明,Free-Range Gaussians在Objaverse和Google Scanned Objects数据集上,与基于像素和体素对齐的方法相比,在显著减少高斯数量的情况下,实现了持续的性能提升。尤其是在输入视图不完整的情况下,该方法的优势更加明显,能够有效减少空洞和模糊,重建出更完整、更真实的3D模型。
🎯 应用场景
该研究成果可应用于三维内容生成、虚拟现实、增强现实、机器人导航等领域。例如,可以利用该方法从少量照片中快速重建出高质量的3D模型,用于游戏开发、电商展示等。此外,该方法在机器人视觉领域也具有潜在应用价值,可以帮助机器人更好地理解和感知周围环境。
📄 摘要(原文)
We present Free-Range Gaussians, a multi-view reconstruction method that predicts non-pixel, non-voxel-aligned 3D Gaussians from as few as four images. This is done through flow matching over Gaussian parameters. Our generative formulation of reconstruction allows the model to be supervised with non-grid-aligned 3D data, and enables it to synthesize plausible content in unobserved regions. Thus, it improves on prior methods that produce highly redundant grid-aligned Gaussians, and suffer from holes or blurry conditional means in unobserved regions. To handle the number of Gaussians needed for high-quality results, we introduce a hierarchical patching scheme to group spatially related Gaussians into joint transformer tokens, halving the sequence length while preserving structure. We further propose a timestep-weighted rendering loss during training, and photometric gradient guidance and classifier-free guidance at inference to improve fidelity. Experiments on Objaverse and Google Scanned Objects show consistent improvements over pixel and voxel-aligned methods while using significantly fewer Gaussians, with large gains when input views leave parts of the object unobserved.