360° Volumetric Portrait Avatar

📄 arXiv: 2312.05311v1 📥 PDF

作者: Jalees Nehvi, Berna Kabadayi, Julien Valentin, Justus Thies

分类: cs.CV

发布日期: 2023-12-08

备注: Project page: https://jalees018.github.io/3VP-Avatar/


💡 一句话要点

提出3VP Avatar,仅用单目视频重建360°逼真的人像Avatar

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 人像Avatar 360°重建 单目视频 神经辐射场 变形场 体绘制 人体重建

📋 核心要点

  1. 现有单目人像重建方法依赖面部跟踪,难以处理侧面和背面视角,导致重建的Avatar不完整。
  2. 提出基于模板的躯干、头部和面部表情跟踪方法,实现对人物所有视角的覆盖,从而重建完整的360°Avatar。
  3. 通过变形场混合基建模嘴部区域的外观变化,解决了人像Avatar重建中嘴唇和牙齿等细节建模的挑战。

📝 摘要(中文)

本文提出了一种新颖的360°人像Avatar重建方法,称为3VP Avatar,它仅基于单目视频输入即可重建逼真的360°人像Avatar。现有单目Avatar重建方法依赖于稳定的面部表情捕捉。然而,基于3DMM的面部跟踪方法存在局限性,难以捕捉侧面视角,尤其是在缺少面部标志或人体解析掩码等所需输入时,无法处理背面视角。这导致重建的Avatar不完整,仅覆盖正面半球。与此相反,我们提出了一种基于模板的躯干、头部和面部表情跟踪方法,从而能够覆盖人物的所有视角。因此,给定一个人物在单个摄像头前旋转的视频序列,我们训练一个基于神经辐射场的神经体绘制表示。构建这种表示的一个关键挑战是建模外观变化,尤其是在嘴部区域(即嘴唇和牙齿)。因此,我们提出了一种基于变形场的混合基,允许我们在不同的外观状态之间进行插值。我们在捕获的真实世界数据上评估了我们的方法,并与最先进的单目重建方法进行了比较。与这些方法相比,我们的方法是第一个重建完整360°Avatar的单目技术。

🔬 方法详解

问题定义:现有单目人像Avatar重建方法依赖于3DMM等技术进行面部跟踪,但这些方法在处理侧面和背面视角时存在局限性,尤其是在缺少面部关键点或人体解析掩码等信息时,导致重建的Avatar只能覆盖正面半球,无法实现360°完整重建。

核心思路:本文的核心思路是采用基于模板的跟踪方法,同时跟踪躯干、头部和面部表情,从而克服传统面部跟踪方法的视角限制。通过这种方式,可以从单目视频中获取人物在各个角度的外观信息,为后续的360°Avatar重建提供数据基础。

技术框架:该方法主要包含以下几个阶段:1) 使用单目视频作为输入,视频中人物在摄像头前旋转;2) 使用基于模板的跟踪方法,跟踪人物的躯干、头部和面部表情;3) 基于跟踪结果,训练一个基于神经辐射场(NeRF)的神经体绘制表示,该表示能够从任意视角渲染人物的外观;4) 为了更好地建模嘴部区域的外观变化,引入了基于变形场的混合基。

关键创新:该方法最重要的创新点在于提出了一种基于模板的全身跟踪方法,克服了传统面部跟踪方法的视角限制,实现了单目视频的360°人像Avatar重建。此外,使用变形场混合基来建模嘴部区域的外观变化,提高了重建Avatar的真实感。

关键设计:在训练神经辐射场时,使用了多视角图像作为监督信号。为了建模嘴部区域的外观变化,设计了一个基于变形场的混合基,该混合基能够根据不同的表情状态对神经辐射场的参数进行调整。具体的损失函数未知,但推测可能包含渲染损失和正则化项。

📊 实验亮点

该方法是第一个仅使用单目视频重建360°人像Avatar的技术。实验结果表明,该方法能够生成逼真的人像Avatar,尤其是在嘴部区域的细节表现方面优于现有方法。具体的性能数据和对比基线未知,但论文强调了其在360°重建方面的优势。

🎯 应用场景

该技术可应用于虚拟现实、增强现实、游戏、远程会议等领域。用户可以使用自己的360°Avatar进行虚拟社交、游戏互动和远程协作,从而提升用户体验和沉浸感。未来,该技术有望应用于个性化内容生成、虚拟形象定制等领域,具有广阔的应用前景。

📄 摘要(原文)

We propose 360° Volumetric Portrait (3VP) Avatar, a novel method for reconstructing 360° photo-realistic portrait avatars of human subjects solely based on monocular video inputs. State-of-the-art monocular avatar reconstruction methods rely on stable facial performance capturing. However, the common usage of 3DMM-based facial tracking has its limits; side-views can hardly be captured and it fails, especially, for back-views, as required inputs like facial landmarks or human parsing masks are missing. This results in incomplete avatar reconstructions that only cover the frontal hemisphere. In contrast to this, we propose a template-based tracking of the torso, head and facial expressions which allows us to cover the appearance of a human subject from all sides. Thus, given a sequence of a subject that is rotating in front of a single camera, we train a neural volumetric representation based on neural radiance fields. A key challenge to construct this representation is the modeling of appearance changes, especially, in the mouth region (i.e., lips and teeth). We, therefore, propose a deformation-field-based blend basis which allows us to interpolate between different appearance states. We evaluate our approach on captured real-world data and compare against state-of-the-art monocular reconstruction methods. In contrast to those, our method is the first monocular technique that reconstructs an entire 360° avatar.