Learning Heterogeneous Mixture of Scene Experts for Large-scale Neural Radiance Fields
作者: Zhenxing Mi, Ping Yin, Xue Xiao, Dan Xu
分类: cs.CV
发布日期: 2025-05-04 (更新: 2025-08-25)
备注: Accepted by TPAMI
🔗 代码/项目: GITHUB
💡 一句话要点
提出Switch-NeRF++,通过异构混合专家网络高效学习大规模场景的神经辐射场。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 神经辐射场 大规模场景 混合专家模型 场景分解 哈希编码 异构建模 高效渲染
📋 核心要点
- 现有大规模场景NeRF方法在可学习分解、场景异构性建模和效率方面存在不足。
- Switch-NeRF++采用异构混合专家网络,通过门控网络学习场景分解并分配给不同专家。
- 实验表明,该方法在训练和渲染速度上显著优于现有方法,并提高了渲染精度。
📝 摘要(中文)
本文提出Switch-NeRF++,一种异构混合哈希专家(HMoHE)网络,旨在解决大规模场景NeRF中可学习分解、场景异构性建模和建模效率等挑战。该方法是一种高度可扩展的NeRF,能够以端到端的方式学习异构分解和异构NeRF,适用于大规模场景。框架中,门控网络学习分解场景并将3D点分配给专门的NeRF专家。通过提出的稀疏门控混合专家(MoE)NeRF框架,门控网络与专家共同优化。集成了基于哈希的门控网络和不同的异构哈希专家。基于哈希的门控有效地学习大规模场景的分解。不同的异构哈希专家由不同分辨率范围的哈希网格组成,从而能够有效地学习不同场景部分的异构表示。实验表明,该方法可以轻松扩展到各种大规模场景,并实现最先进的场景渲染精度。此外,与Switch-NeRF相比,该方法在训练中实现了8倍的加速,在渲染中实现了16倍的加速。
🔬 方法详解
问题定义:现有大规模场景NeRF方法难以兼顾可学习的场景分解、场景异构性的有效建模以及整体建模效率。尤其是在超大规模场景下,如何自动学习场景结构,并针对不同区域采用不同的建模策略,是一个关键挑战。现有方法通常依赖人工先验或简单的场景划分,缺乏灵活性和效率。
核心思路:论文的核心思路是利用混合专家模型(MoE),通过一个可学习的门控网络自动将场景分解为多个区域,并为每个区域分配一个专门的NeRF专家。每个专家负责学习特定区域的辐射场。通过这种方式,可以针对不同区域的特性进行定制化建模,提高整体的建模效率和精度。
技术框架:Switch-NeRF++的整体框架包含一个基于哈希的门控网络和多个异构哈希专家。首先,输入3D坐标,门控网络预测该坐标属于哪个专家的概率。然后,根据概率选择对应的专家进行辐射场的预测。最后,将所有专家的输出进行加权平均,得到最终的颜色和密度值。门控网络和专家网络通过联合训练进行优化。
关键创新:该方法最重要的创新点在于提出了异构混合哈希专家(HMoHE)网络。不同于以往的MoE方法,Switch-NeRF++的每个专家都采用不同分辨率范围的哈希网格,从而能够更好地适应不同场景区域的异构性。此外,基于哈希的门控网络能够高效地学习大规模场景的分解。
关键设计:门控网络采用哈希编码作为输入,输出每个专家的权重。每个专家网络也采用哈希编码,但使用不同分辨率的哈希表。损失函数包括渲染损失和正则化损失,用于约束专家网络的复杂度。稀疏门控机制用于减少计算量,提高训练效率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Switch-NeRF++在现有的大规模NeRF数据集和UrbanBIS数据集上均取得了state-of-the-art的渲染精度。与Switch-NeRF相比,该方法在训练速度上提升了8倍,在渲染速度上提升了16倍。这些结果验证了该方法在效率和精度上的优越性,表明其在大规模场景建模方面具有很强的竞争力。
🎯 应用场景
该研究成果可应用于城市级别的三维重建、自动驾驶仿真、虚拟现实场景构建等领域。通过高效地建模大规模场景,可以为这些应用提供高质量的视觉数据和逼真的环境模拟,具有重要的实际应用价值和商业前景。未来,该技术有望进一步扩展到动态场景的建模和编辑。
📄 摘要(原文)
Recent NeRF methods on large-scale scenes have underlined the importance of scene decomposition for scalable NeRFs. Although achieving reasonable scalability, there are several critical problems remaining unexplored, i.e., learnable decomposition, modeling scene heterogeneity, and modeling efficiency. In this paper, we introduce Switch-NeRF++, a Heterogeneous Mixture of Hash Experts (HMoHE) network that addresses these challenges within a unified framework. It is a highly scalable NeRF that learns heterogeneous decomposition and heterogeneous NeRFs efficiently for large-scale scenes in an end-to-end manner. In our framework, a gating network learns to decompose scenes and allocates 3D points to specialized NeRF experts. This gating network is co-optimized with the experts by our proposed Sparsely Gated Mixture of Experts (MoE) NeRF framework. We incorporate a hash-based gating network and distinct heterogeneous hash experts. The hash-based gating efficiently learns the decomposition of the large-scale scene. The distinct heterogeneous hash experts consist of hash grids of different resolution ranges, enabling effective learning of the heterogeneous representation of different scene parts. These design choices make our framework an end-to-end and highly scalable NeRF solution for real-world large-scale scene modeling to achieve both quality and efficiency. We evaluate our accuracy and scalability on existing large-scale NeRF datasets and a new dataset with very large-scale scenes ($>6.5km^2$) from UrbanBIS. Extensive experiments demonstrate that our approach can be easily scaled to various large-scale scenes and achieve state-of-the-art scene rendering accuracy. Furthermore, our method exhibits significant efficiency, with an 8x acceleration in training and a 16x acceleration in rendering compared to Switch-NeRF. Codes will be released at https://github.com/MiZhenxing/Switch-NeRF.