DNRSelect: Active Best View Selection for Deferred Neural Rendering

📄 arXiv: 2501.12150v1 📥 PDF

作者: Dongli Wu, Haochen Li, Xiaobao Wei

分类: cs.CV

发布日期: 2025-01-21

备注: 7 pages, 8 figures, submitted to ICRA 2025


💡 一句话要点

DNRSelect:用于延迟神经渲染的主动最佳视角选择方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)

关键词: 延迟神经渲染 视角选择 强化学习 3D纹理聚合 机器人感知

📋 核心要点

  1. 延迟神经渲染依赖大量光线追踪图像,计算成本高昂,如何降低对高质量光线追踪图像的依赖是核心问题。
  2. DNRSelect提出基于强化学习的视角选择器,在栅格化图像上训练,选择少量最佳视角进行光线追踪,降低数据需求。
  3. 引入3D纹理聚合器,融合深度图、法线图和UV图特征,增强空间感知和几何一致性,提升渲染质量。

📝 摘要(中文)

延迟神经渲染(DNR)是一种新兴的计算机图形学流程,专为高保真渲染和机器人感知而设计。然而,DNR严重依赖于由大量光线追踪图像组成的数据集,并需要大量的计算资源。如何在保持渲染保真度的同时,减少对高质量光线追踪图像的依赖,仍然是一个未被充分探索的问题。本文提出了DNRSelect,它集成了基于强化学习的视角选择器和用于延迟神经渲染的3D纹理聚合器。我们首先提出了一种基于强化学习的DNR视角选择器,它在容易获得的栅格化图像上进行训练,以识别最佳视角。通过仅获取少量针对这些选定视角的光线追踪图像,该选择器使DNR能够实现高质量的渲染。为了进一步增强DNR中的空间感知和几何一致性,我们引入了一种3D纹理聚合器,它将来自深度图和法线图的金字塔特征与UV图融合。鉴于获取光线追踪图像比生成栅格化图像更耗时,DNRSelect通过仅使用少量选定的视角来最大限度地减少对光线追踪数据的需求,同时仍然实现高保真渲染结果。我们在NeRF-Synthetic数据集上进行了详细的实验和消融研究,以证明DNRSelect的有效性。代码将会开源。

🔬 方法详解

问题定义:延迟神经渲染(DNR)旨在实现高保真渲染,但其对大量光线追踪图像的依赖导致计算成本高昂。现有方法难以在减少光线追踪数据需求的同时保持渲染质量,这限制了DNR在资源受限环境中的应用。

核心思路:DNRSelect的核心思路是通过主动选择信息量最大的视角进行光线追踪,从而在减少数据需求的同时,保证渲染质量。利用强化学习训练视角选择器,使其能够从易于获取的栅格化图像中学习选择最佳视角。

技术框架:DNRSelect包含两个主要模块:基于强化学习的视角选择器和3D纹理聚合器。首先,视角选择器在栅格化图像上训练,输出最佳视角。然后,仅对这些选定视角进行光线追踪,生成高质量图像。最后,3D纹理聚合器融合深度图、法线图和UV图特征,提升空间感知和几何一致性。

关键创新:DNRSelect的关键创新在于将强化学习引入DNR的视角选择过程。与随机选择或固定视角相比,基于强化学习的选择器能够自适应地选择信息量最大的视角,从而显著减少光线追踪数据需求。此外,3D纹理聚合器通过融合多模态特征,进一步提升了渲染质量。

关键设计:视角选择器使用深度Q网络(DQN)进行训练,奖励函数的设计鼓励选择能够最大程度提升渲染质量的视角。3D纹理聚合器使用金字塔特征提取网络提取深度图和法线图的多尺度特征,并将其与UV图特征融合。损失函数包括渲染损失和几何一致性损失,以保证渲染质量和几何准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DNRSelect在NeRF-Synthetic数据集上进行了实验,结果表明,在仅使用少量选定视角的光线追踪图像的情况下,DNRSelect能够实现与使用大量光线追踪图像的传统DNR方法相当甚至更好的渲染质量。消融研究验证了视角选择器和3D纹理聚合器的有效性。

🎯 应用场景

DNRSelect可应用于机器人感知、虚拟现实、增强现实等领域。通过减少对大量光线追踪数据的依赖,降低了DNR的计算成本和数据采集难度,使其更容易部署在资源受限的移动设备或嵌入式系统中。该方法还有助于加速3D场景重建和新视角合成等任务。

📄 摘要(原文)

Deferred neural rendering (DNR) is an emerging computer graphics pipeline designed for high-fidelity rendering and robotic perception. However, DNR heavily relies on datasets composed of numerous ray-traced images and demands substantial computational resources. It remains under-explored how to reduce the reliance on high-quality ray-traced images while maintaining the rendering fidelity. In this paper, we propose DNRSelect, which integrates a reinforcement learning-based view selector and a 3D texture aggregator for deferred neural rendering. We first propose a novel view selector for deferred neural rendering based on reinforcement learning, which is trained on easily obtained rasterized images to identify the optimal views. By acquiring only a few ray-traced images for these selected views, the selector enables DNR to achieve high-quality rendering. To further enhance spatial awareness and geometric consistency in DNR, we introduce a 3D texture aggregator that fuses pyramid features from depth maps and normal maps with UV maps. Given that acquiring ray-traced images is more time-consuming than generating rasterized images, DNRSelect minimizes the need for ray-traced data by using only a few selected views while still achieving high-fidelity rendering results. We conduct detailed experiments and ablation studies on the NeRF-Synthetic dataset to demonstrate the effectiveness of DNRSelect. The code will be released.