Representing Animatable Avatar via Factorized Neural Fields

📄 arXiv: 2406.00637v1 📥 PDF

作者: Chunjin Song, Zhijie Wu, Bastian Wandt, Leonid Sigal, Helge Rhodin

分类: cs.CV, cs.AI, cs.GR

发布日期: 2024-06-02


💡 一句话要点

提出基于分解神经场的动画Avatar表示方法,提升单目视频三维重建的细节保真度。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 神经辐射场 三维重建 人体建模 单目视频 动画Avatar

📋 核心要点

  1. 现有方法难以在单目视频三维重建中同时保持大尺度身体形状的一致性和精细的皱纹细节。
  2. 论文提出将每帧渲染结果分解为姿势无关和姿势相关的成分,并分别处理不同频率的信息,以提升帧间一致性。
  3. 实验结果表明,该方法在保持高频细节和身体轮廓一致性方面优于基于NeRF的先进方法。

📝 摘要(中文)

本文提出了一种基于分解神经场的动画Avatar表示方法,用于从单目视频中重建高保真的人体3D模型。该方法的核心思想是将每帧的渲染结果分解为与姿势无关的成分和与姿势相关的成分,从而促进帧间一致性。通过限制这两个成分的频率范围,可以进一步改进姿势自适应纹理。具体来说,与姿势无关的输出应为低频信息,而高频信息与姿势相关的因素相关联。该方法使用一个双分支网络,分别处理不同频率的成分,从而在整个输入视频中保持粗略的身体轮廓和精细的纹理特征。第一分支以规范空间中的坐标作为输入,第二分支额外考虑第一分支的输出特征和每帧的姿势信息。网络整合两个分支的预测信息,并利用体渲染生成逼真的3D人体图像。实验结果表明,该网络在保持高频细节和确保一致的身体轮廓方面优于基于神经辐射场(NeRF)的现有方法。

🔬 方法详解

问题定义:现有基于NeRF的方法在从单目视频重建人体3D模型时,难以同时保持全局身体形状的一致性和局部细节(如皱纹)的精细度。这是因为NeRF直接学习像素到辐射场的映射,缺乏对人体结构先验的有效利用,容易出现帧间不一致性,导致重建结果出现伪影和抖动。

核心思路:论文的核心思路是将渲染结果分解为姿势无关的成分和姿势相关的成分。姿势无关的成分主要负责重建人体的大尺度形状,而姿势相关的成分则负责捕捉精细的纹理和细节。通过这种分解,可以更好地约束网络的学习,提高重建结果的帧间一致性和细节保真度。同时,论文还利用频率信息,将低频信息与姿势无关的成分关联,高频信息与姿势相关的成分关联,进一步提升了重建效果。

技术框架:该方法采用一个双分支网络结构。第一分支(canonical space branch)以规范空间中的坐标作为输入,负责预测与姿势无关的低频信息,例如人体的基本形状。第二分支(pose-dependent branch)以第一分支的输出特征和每帧的姿势信息作为输入,负责预测与姿势相关的高频信息,例如皱纹和服装细节。两个分支的输出被整合在一起,然后通过体渲染生成最终的3D人体图像。

关键创新:该方法最重要的技术创新点在于将渲染结果分解为姿势无关和姿势相关的成分,并利用双分支网络分别处理不同频率的信息。这种分解方式能够更好地利用人体结构先验,提高重建结果的帧间一致性和细节保真度。与现有方法相比,该方法能够更好地捕捉人体的高频细节,并保持身体轮廓的一致性。

关键设计:论文的关键设计包括:1) 使用双分支网络结构,分别处理姿势无关和姿势相关的成分;2) 将频率信息与姿势无关和姿势相关的成分关联,利用频率先验约束网络学习;3) 使用体渲染生成最终的3D人体图像;4) 具体的损失函数设计(论文中未明确给出,此处未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在保持高频细节和确保一致的身体轮廓方面优于基于神经辐射场(NeRF)的现有方法。具体的性能数据和对比基线在摘要中未提及,因此无法给出具体的提升幅度(未知)。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、游戏、动画制作等领域,例如创建逼真的虚拟化身、进行人体动作捕捉和动画生成等。通过该方法,可以从单目视频中重建高质量的3D人体模型,为相关应用提供更真实、更自然的交互体验,并有望推动相关技术的发展。

📄 摘要(原文)

For reconstructing high-fidelity human 3D models from monocular videos, it is crucial to maintain consistent large-scale body shapes along with finely matched subtle wrinkles. This paper explores the observation that the per-frame rendering results can be factorized into a pose-independent component and a corresponding pose-dependent equivalent to facilitate frame consistency. Pose adaptive textures can be further improved by restricting frequency bands of these two components. In detail, pose-independent outputs are expected to be low-frequency, while highfrequency information is linked to pose-dependent factors. We achieve a coherent preservation of both coarse body contours across the entire input video and finegrained texture features that are time variant with a dual-branch network with distinct frequency components. The first branch takes coordinates in canonical space as input, while the second branch additionally considers features outputted by the first branch and pose information of each frame. Our network integrates the information predicted by both branches and utilizes volume rendering to generate photo-realistic 3D human images. Through experiments, we demonstrate that our network surpasses the neural radiance fields (NeRF) based state-of-the-art methods in preserving high-frequency details and ensuring consistent body contours.