To View Transform or Not to View Transform: NeRF-based Pre-training Perspective

📄 arXiv: 2603.28090v1 📥 PDF

作者: Hyeonjun Jeong, Juyeb Shin, Dongsuk Kum

分类: cs.CV

发布日期: 2026-03-30

备注: The Fourteenth International Conference on Learning Representations (ICLR'26)


💡 一句话要点

提出NeRP3D,解决NeRF预训练中视角变换引入的先验冲突,提升3D目标检测性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 神经辐射场 NeRF 3D目标检测 自动驾驶 点云 预训练 连续表示 视角变换

📋 核心要点

  1. 现有基于NeRF的3D感知预训练方法与视角变换结合,导致离散/刚性表示与连续/自适应函数之间的先验冲突。
  2. 提出NeRP3D,一种基于NeRF的Point-based 3D检测器,学习连续3D表示,避免视角变换引入的先验不一致。
  3. 在nuScenes数据集上,NeRP3D显著优于现有方法,提升了场景重建和下游检测任务的性能。

📝 摘要(中文)

神经辐射场(NeRFs)已成为以视觉为中心的自动驾驶领域中一种重要的预训练范式,它以完全自监督的方式增强了对3D几何和外观的理解。为了将基于NeRF的预训练应用于3D感知模型,最近的方法简单地将NeRF应用于从视角变换获得的体素特征。然而,将NeRF与视角变换结合会继承冲突的先验知识;视角变换施加离散和刚性的表示,而辐射场假设连续和自适应的函数。当这些相反的假设被强加到单个pipeline中时,这种不一致表现为模糊和不明确的3D表示,最终限制了3D场景的理解。此外,用于预训练的NeRF网络在下游任务中被丢弃,导致通过NeRF增强的3D表示的利用效率低下。在本文中,我们提出了一种新颖的基于NeRF的Point-based 3D检测器,它可以学习连续的3D表示,从而避免了视角变换带来的先验不一致。NeRP3D保留了预训练的NeRF网络,而与任务无关,继承了连续3D表示学习的原则,并为场景重建和检测任务带来了更大的潜力。在nuScenes数据集上的实验表明,我们提出的方法显著改进了先前的state-of-the-art方法,不仅优于pretext场景重建任务,而且优于下游检测任务。

🔬 方法详解

问题定义:现有基于NeRF的3D感知预训练方法,通常将NeRF与视角变换结合使用。这种结合引入了冲突的先验知识:视角变换倾向于离散和刚性的表示,而NeRF则假设连续和自适应的函数。这种不一致导致模糊的3D表示,限制了3D场景理解。此外,预训练的NeRF网络在下游任务中被丢弃,造成资源浪费。

核心思路:NeRP3D的核心思路是避免使用视角变换,直接在点云上构建NeRF,从而学习连续的3D表示。通过保留预训练的NeRF网络,NeRP3D能够持续利用NeRF学习到的3D信息,提高下游任务的性能。这种设计避免了离散表示和连续表示之间的冲突,从而产生更清晰和准确的3D场景理解。

技术框架:NeRP3D的整体框架包含以下几个主要阶段:1) 点云特征提取:使用PointNet++等方法从原始点云中提取局部特征。2) NeRF构建:基于提取的特征,构建NeRF网络,学习连续的3D表示。3) 场景重建:利用NeRF网络进行场景重建,作为预训练任务。4) 3D目标检测:将预训练的NeRF网络应用于3D目标检测任务,并进行微调。

关键创新:NeRP3D的关键创新在于避免了视角变换,直接在点云上构建NeRF。这与现有方法将NeRF应用于视角变换后的体素特征图不同。通过这种方式,NeRP3D能够学习到更连续、更自然的3D表示,避免了离散表示和连续表示之间的冲突。此外,NeRP3D保留了预训练的NeRF网络,并在下游任务中持续利用,提高了模型的效率和性能。

关键设计:NeRP3D的关键设计包括:1) 使用PointNet++提取点云特征;2) 设计NeRF网络,将点云特征映射到密度和颜色;3) 使用光线步进算法进行场景重建;4) 设计损失函数,包括重建损失和检测损失;5) 在下游检测任务中,将预训练的NeRF网络作为backbone,并进行微调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在nuScenes数据集上的实验结果表明,NeRP3D在场景重建和3D目标检测任务上均取得了显著的性能提升。具体来说,NeRP3D在3D目标检测任务上超越了之前的state-of-the-art方法,证明了其有效性。实验结果表明,NeRP3D能够学习到更连续、更准确的3D表示,从而提高了模型的感知能力。

🎯 应用场景

NeRP3D在自动驾驶领域具有广泛的应用前景,可以用于提高车辆对周围环境的感知能力,从而提高驾驶安全性。此外,NeRP3D还可以应用于机器人导航、虚拟现实、增强现实等领域,为这些领域提供更准确、更自然的3D场景表示。

📄 摘要(原文)

Neural radiance fields (NeRFs) have emerged as a prominent pre-training paradigm for vision-centric autonomous driving, which enhances 3D geometry and appearance understanding in a fully self-supervised manner. To apply NeRF-based pretraining to 3D perception models, recent approaches have simply applied NeRFs to volumetric features obtained from view transformation. However, coupling NeRFs with view transformation inherits conflicting priors; view transformation imposes discrete and rigid representations, whereas radiance fields assume continuous and adaptive functions. When these opposing assumptions are forced into a single pipeline, the misalignment surfaces as blurry and ambiguous 3D representations that ultimately limit 3D scene understanding. Moreover, the NeRF network for pre-training is discarded during downstream tasks, resulting in inefficient utilization of enhanced 3D representations through NeRF. In this paper, we propose a novel NeRF-Resembled Point-based 3D detector that can learn continuous 3D representation and thus avoid the misaligned priors from view transformation. NeRP3D preserves the pre-trained NeRF network regardless of the tasks, inheriting the principle of continuous 3D representation learning and leading to greater potentials for both scene reconstruction and detection tasks. Experiments on nuScenes dataset demonstrate that our proposed approach significantly improves previous state-of-the-art methods, outperforming not only pretext scene reconstruction tasks but also downstream detection tasks.