SplatWeaver: Learning to Allocate Gaussian Primitives for Generalizable Novel View Synthesis
作者: Yecong Wan, Fan Li, Mingwen Shao, Wangmeng Zuo
分类: cs.CV
发布日期: 2026-05-08
💡 一句话要点
提出SplatWeaver框架,通过动态分配高斯基元实现高效且可泛化的新视角合成
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 新视角合成 3D高斯溅射 泛化模型 动态分配 计算机视觉 场景表示
📋 核心要点
- 现有前馈3D高斯溅射方法采用固定基元分配策略,导致平滑区域资源冗余,而复杂结构区域容量不足。
- SplatWeaver引入基数高斯专家与像素级路由机制,根据空间复杂度动态决定各区域所需的高斯基元数量。
- 实验证明该方法在保持更少基元的同时,显著提升了复杂场景下的渲染质量,优于当前主流泛化合成方法。
📝 摘要(中文)
泛化新视角合成旨在无需针对特定场景进行优化,即可从非标定输入图像渲染出未见视角。近期基于3D高斯溅射(3D Gaussian Splatting)的前馈方法已展现出良好的效率与渲染质量。然而,现有方法通常为每个像素或体素分配固定数量的高斯基元,忽略了现实场景中空间复杂度的差异。这种均匀分配策略在平滑区域浪费了基元资源,而在精细结构、复杂几何及高频细节处却容量不足。为此,本文提出了SplatWeaver,一种能够以前馈方式在不同区域动态分配高斯基元的新视角合成框架。SplatWeaver引入了基数高斯专家(Cardinality Gaussian Experts)与像素级路由机制,通过专家协同实现空间自适应的基元分配。此外,该方法结合了高频先验与注意力引导模块及路由正则化,以稳定专家选择并促进复杂度感知分配。实验表明,SplatWeaver在多种场景下均优于现有先进方法,在减少高斯基元数量的同时实现了更逼真的渲染效果。
🔬 方法详解
问题定义:现有泛化新视角合成方法在处理场景时,倾向于为所有空间位置分配等量的高斯基元。这种“一刀切”的策略无法适应现实世界中物体几何复杂度的剧烈变化,导致计算资源浪费与细节表达能力的失衡。
核心思路:论文提出了一种基于区域复杂度的动态分配策略。通过引入“基数高斯专家”系统,模型能够根据输入图像的局部特征,智能决策每个像素点应分配多少个高斯基元(从0到M),从而实现更紧凑且更具表达力的场景表示。
技术框架:SplatWeaver采用前馈架构,核心包含特征提取器、基数高斯专家网络、像素级路由模块以及高频先验引导模块。系统首先提取图像特征,通过路由机制将像素分配给特定的专家,专家负责生成对应数量的高斯参数,最终通过溅射渲染输出图像。
关键创新:最重要的创新在于将基元分配问题建模为“专家路由”问题。与传统固定分配不同,该方法通过学习空间依赖的基数分布,实现了对场景结构的高效建模,使得模型能够将有限的基元预算集中在纹理丰富和几何复杂的区域。
关键设计:引入了高频先验引导模块,利用结构化信息辅助路由决策;同时设计了路由正则化项,以稳定训练过程中的专家选择,防止模型坍缩,确保分配策略能够准确反映场景的实际复杂度。
🖼️ 关键图片
📊 实验亮点
SplatWeaver在多个基准数据集上进行了广泛评估,结果显示其在渲染质量(如PSNR、SSIM指标)上显著优于现有的前馈泛化方法。特别是在处理复杂几何结构时,该方法在大幅减少高斯基元总数的前提下,依然保持了极高的视觉保真度,证明了其动态分配策略的优越性与鲁棒性。
🎯 应用场景
该研究在虚拟现实(VR)、增强现实(AR)及自动驾驶领域具有重要价值。通过实现高效、高质量的实时新视角合成,SplatWeaver可应用于轻量级移动端设备上的三维场景重建与交互式渲染,显著降低存储与计算开销,推动高保真数字孪生技术的落地。
📄 摘要(原文)
Generalizable novel view synthesis aims to render unseen views from uncalibrated input images without requiring per-scene optimization. Recent feed-forward approaches based on 3D Gaussian Splatting have achieved promising efficiency and rendering quality. However, most of them assign a fixed number of Gaussians to each pixel or voxel, ignoring the spatially varying complexity of real-world scenes. Such uniform allocation often wastes Gaussian primitives in smooth regions while providing insufficient capacity for fine structures, complex geometry, and high-frequency details. This motivates us to predict region-dependent primitive cardinalities rather than impose a fixed primitive budget everywhere, enabling a more expressive yet compact 3D scene representation. Therefore, we propose SplatWeaver, a generalizable novel view synthesis framework that is able to dynamically allocate Gaussian primitives over different regions in a feed-forward manner. Specifically, SplatWeaver introduces cardinality Gaussian experts and a pixel-level routing scheme, wherein each expert specializes in producing a specific number of primitives from 0 to M, and the routing scheme coordinates these experts to adaptively determine how many Gaussian primitives should be allocated to each spatial location. Moreover, SplatWeaver incorporates a high-frequency prior with attendant guidance module and routing regularization to stabilize expert selection and promote complexity-aware allocation. By leveraging high-frequency structural cues, the routing process is encouraged to assign more Gaussian primitives to fine structures, complex geometry, and textured regions, while suppressing redundant primitives in smooth areas. Extensive experiments across diverse scenarios show that SplatWeaver consistently outperforms state-of-the-art methods, delivering more faithful novel-view renderings with fewer Gaussian primitives.