EG-HumanNeRF: Efficient Generalizable Human NeRF Utilizing Human Prior for Sparse View

📄 arXiv: 2410.12242v1 📥 PDF

作者: Zhaorong Wang, Yoshihiro Kanamori, Yuki Endo

分类: cs.CV, cs.GR

发布日期: 2024-10-16

备注: project page: https://github.com/LarsPh/EG-HumanNeRF


💡 一句话要点

提出EG-HumanNeRF,利用人体先验知识,高效生成稀疏视角下高质量可泛化的人体NeRF模型。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 人体NeRF 可泛化渲染 稀疏视角 遮挡感知 实时渲染 人体先验 神经渲染

📋 核心要点

  1. 现有可泛化NeRF方法渲染质量依赖大量网络查询,速度慢,且在稀疏视角下遮挡区域易产生伪影。
  2. 利用人体先验知识,通过两阶段采样减少策略加速渲染,并引入遮挡感知注意力机制和SRDF损失提升质量。
  3. 实验结果表明,该方法在渲染质量上优于现有方法,并保持了与快速新视角合成方法相当的渲染速度。

📝 摘要(中文)

本文提出了一种可泛化的人体NeRF框架,该框架通过广泛利用人体先验知识,实现了稀疏视角下高质量和实时的渲染。为了加速渲染,我们采用了一种两阶段采样减少策略:首先构建人体几何体周围的边界网格,以减少采样引导回归的射线样本数量,然后使用更少的引导样本进行体渲染。为了提高渲染质量,特别是在遮挡区域,我们提出了一种遮挡感知注意力机制,从人体先验中提取遮挡信息,然后使用图像空间细化网络来提高渲染质量。此外,对于体渲染,我们采用有符号射线距离函数(SRDF)公式,这使我们能够在每个样本位置提出SRDF损失,以进一步提高渲染质量。实验表明,我们的方法在渲染质量方面优于最先进的方法,并且与优先考虑速度的新视角合成方法相比,具有竞争力的渲染速度。

🔬 方法详解

问题定义:现有可泛化人体NeRF方法在稀疏视角下渲染时,需要大量的神经⽹络查询以保证渲染质量,导致推理速度慢。同时,由于缺乏足够的视角信息,遮挡区域容易出现伪影,影响最终的渲染效果。

核心思路:本文的核心思路是充分利用人体先验知识来指导NeRF的训练和渲染过程。通过人体先验,可以更好地估计人体几何形状和遮挡关系,从而减少采样数量,提高渲染速度,并改善遮挡区域的渲染质量。

技术框架:EG-HumanNeRF框架主要包含以下几个模块:1) 边界网格构建:利用人体先验知识构建人体几何体周围的边界网格,用于减少射线采样数量。2) 两阶段采样减少:首先使用边界网格进行采样引导回归,减少采样数量;然后使用更少的引导样本进行体渲染。3) 遮挡感知注意力机制:从人体先验中提取遮挡信息,用于指导图像空间细化网络。4) 图像空间细化网络:利用遮挡信息对渲染结果进行细化,改善遮挡区域的渲染质量。5) SRDF体渲染:采用有符号射线距离函数(SRDF)公式进行体渲染,并引入SRDF损失,进一步提高渲染质量。

关键创新:该方法的主要创新点在于:1) 提出了两阶段采样减少策略,显著减少了采样数量,提高了渲染速度。2) 引入了遮挡感知注意力机制,利用人体先验知识改善了遮挡区域的渲染质量。3) 采用了SRDF公式和SRDF损失,进一步提高了渲染质量。

关键设计:在两阶段采样减少策略中,边界网格的构建方式和采样点的数量是关键参数。遮挡感知注意力机制的具体实现方式,以及图像空间细化网络的结构设计,都会影响最终的渲染效果。SRDF损失的具体形式和权重设置也需要仔细调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EG-HumanNeRF在渲染质量方面优于现有最先进的方法。与现有方法相比,该方法在保持较高渲染质量的同时,显著提高了渲染速度,实现了高质量和实时渲染的平衡。具体性能数据(如PSNR、SSIM等)和对比基线需要在论文中查找。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、数字人、游戏等领域。通过该方法,可以利用少量视角图像快速生成高质量的人体渲染结果,从而降低数据采集成本,提高用户体验。未来,该技术有望应用于远程会议、虚拟试衣、个性化内容生成等场景。

📄 摘要(原文)

Generalizable neural radiance field (NeRF) enables neural-based digital human rendering without per-scene retraining. When combined with human prior knowledge, high-quality human rendering can be achieved even with sparse input views. However, the inference of these methods is still slow, as a large number of neural network queries on each ray are required to ensure the rendering quality. Moreover, occluded regions often suffer from artifacts, especially when the input views are sparse. To address these issues, we propose a generalizable human NeRF framework that achieves high-quality and real-time rendering with sparse input views by extensively leveraging human prior knowledge. We accelerate the rendering with a two-stage sampling reduction strategy: first constructing boundary meshes around the human geometry to reduce the number of ray samples for sampling guidance regression, and then volume rendering using fewer guided samples. To improve rendering quality, especially in occluded regions, we propose an occlusion-aware attention mechanism to extract occlusion information from the human priors, followed by an image space refinement network to improve rendering quality. Furthermore, for volume rendering, we adopt a signed ray distance function (SRDF) formulation, which allows us to propose an SRDF loss at every sample position to improve the rendering quality further. Our experiments demonstrate that our method outperforms the state-of-the-art methods in rendering quality and has a competitive rendering speed compared with speed-prioritized novel view synthesis methods.