Disentangled Generation and Aggregation for Robust Radiance Fields
作者: Shihe Shen, Huachen Gao, Wangze Xu, Rui Peng, Luyang Tang, Kaiqiang Xiong, Jianbo Jiao, Ronggang Wang
分类: cs.CV, cs.GR
发布日期: 2024-09-24
备注: 27 pages, 11 figures, Accepted by ECCV'2024
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出解耦生成与聚合方法,提升辐射场在噪声位姿下的鲁棒性
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 辐射场 新视角合成 三平面 相机位姿估计 解耦学习
📋 核心要点
- 现有基于三平面的辐射场方法对相机位姿精度要求高,局部更新易陷入局部最优。
- 提出解耦三平面生成模块引入全局特征上下文和平滑性,解耦平面聚合减轻特征纠缠。
- 引入两阶段热启动训练策略减少隐式约束,实验证明方法在噪声位姿下表现SOTA。
📝 摘要(中文)
本文提出了一种用于增强辐射场鲁棒性的解耦生成与聚合方法。基于三平面的辐射场因其能够以高质量的表示和低计算成本有效地解耦3D场景而备受关注。该方法的一个关键要求是精确的相机位姿输入。然而,由于三平面的局部更新特性,与之前联合位姿-NeRF优化工作类似的联合估计容易陷入局部最小值。为此,我们提出了解耦三平面生成模块,以将全局特征上下文和平滑性引入三平面学习,从而减轻由局部更新引起的误差。然后,我们提出了解耦平面聚合,以减轻相机位姿更新期间常见的三平面特征聚合引起的纠缠。此外,我们引入了两阶段热启动训练策略,以减少三平面生成器引起的隐式约束。定量和定性结果表明,我们提出的方法在具有噪声或未知相机位姿的新视角合成中实现了最先进的性能,并实现了优化的有效收敛。
🔬 方法详解
问题定义:论文旨在解决基于三平面的辐射场方法对相机位姿噪声敏感的问题。现有方法依赖精确的相机位姿,并且由于三平面的局部更新特性,联合优化相机位姿和辐射场容易陷入局部最小值,导致重建质量下降。此外,常见的三平面特征聚合方式容易导致特征纠缠,进一步影响位姿估计和新视角合成的准确性。
核心思路:论文的核心思路是通过解耦三平面的生成和聚合过程来提高辐射场对噪声位姿的鲁棒性。具体来说,通过引入全局特征上下文和平滑性来约束三平面的生成,从而减轻局部更新带来的误差。同时,通过解耦平面聚合来减少特征纠缠,从而提高相机位姿更新的准确性。
技术框架:整体框架包含解耦三平面生成模块、解耦平面聚合模块和两阶段热启动训练策略。首先,解耦三平面生成模块负责生成具有全局一致性的三平面特征。然后,解耦平面聚合模块负责将三平面特征聚合为体素特征,用于后续的体渲染。最后,两阶段热启动训练策略用于初始化三平面生成器,并减少其带来的隐式约束。
关键创新:论文的关键创新在于提出了解耦三平面生成和解耦平面聚合两个模块。解耦三平面生成模块通过引入全局特征上下文和平滑性,有效地缓解了局部更新带来的误差。解耦平面聚合模块通过减少特征纠缠,提高了相机位姿更新的准确性。此外,两阶段热启动训练策略也为模型的训练提供了更好的初始化。
关键设计:解耦三平面生成模块的具体实现方式未知,论文中没有详细描述。解耦平面聚合模块的具体实现方式也未知。两阶段热启动训练策略首先使用一个预训练的三平面生成器来初始化模型,然后在第二个阶段联合优化相机位姿和辐射场。损失函数包括渲染损失和正则化损失,具体形式未知。
🖼️ 关键图片
📊 实验亮点
论文提出的方法在噪声相机位姿下的新视角合成任务中取得了state-of-the-art的性能。具体的数据和对比基线未知,但摘要中明确指出该方法实现了优于现有方法的性能,并且优化过程收敛速度更快。实验结果验证了解耦生成与聚合策略的有效性,以及两阶段热启动训练策略的优势。
🎯 应用场景
该研究成果可应用于增强现实、虚拟现实、机器人导航、自动驾驶等领域。在这些应用中,相机位姿通常存在噪声或不确定性,该方法可以提高三维重建和新视角合成的鲁棒性,从而提升用户体验和系统性能。此外,该方法还可以用于对旧照片或视频进行三维重建,即使这些数据缺乏精确的相机位姿信息。
📄 摘要(原文)
The utilization of the triplane-based radiance fields has gained attention in recent years due to its ability to effectively disentangle 3D scenes with a high-quality representation and low computation cost. A key requirement of this method is the precise input of camera poses. However, due to the local update property of the triplane, a similar joint estimation as previous joint pose-NeRF optimization works easily results in local minima. To this end, we propose the Disentangled Triplane Generation module to introduce global feature context and smoothness into triplane learning, which mitigates errors caused by local updating. Then, we propose the Disentangled Plane Aggregation to mitigate the entanglement caused by the common triplane feature aggregation during camera pose updating. In addition, we introduce a two-stage warm-start training strategy to reduce the implicit constraints caused by the triplane generator. Quantitative and qualitative results demonstrate that our proposed method achieves state-of-the-art performance in novel view synthesis with noisy or unknown camera poses, as well as efficient convergence of optimization. Project page: https://gaohchen.github.io/DiGARR/.