360° Volumetric Portrait Avatar

作者: Jalees Nehvi, Berna Kabadayi, Julien Valentin, Justus Thies

分类: cs.CV

发布日期: 2023-12-08

备注: Project page: https://jalees018.github.io/3VP-Avatar/

💡 一句话要点

提出3VP Avatar，仅用单目视频重建360°逼真的人像Avatar

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 人像Avatar 360°重建 单目视频 神经辐射场 变形场 体绘制 人体重建

📋 核心要点

现有单目人像重建方法依赖面部跟踪，难以处理侧面和背面视角，导致重建的Avatar不完整。
提出基于模板的躯干、头部和面部表情跟踪方法，实现对人物所有视角的覆盖，从而重建完整的360°Avatar。
通过变形场混合基建模嘴部区域的外观变化，解决了人像Avatar重建中嘴唇和牙齿等细节建模的挑战。

📝 摘要（中文）

本文提出了一种新颖的360°人像Avatar重建方法，称为3VP Avatar，它仅基于单目视频输入即可重建逼真的360°人像Avatar。现有单目Avatar重建方法依赖于稳定的面部表情捕捉。然而，基于3DMM的面部跟踪方法存在局限性，难以捕捉侧面视角，尤其是在缺少面部标志或人体解析掩码等所需输入时，无法处理背面视角。这导致重建的Avatar不完整，仅覆盖正面半球。与此相反，我们提出了一种基于模板的躯干、头部和面部表情跟踪方法，从而能够覆盖人物的所有视角。因此，给定一个人物在单个摄像头前旋转的视频序列，我们训练一个基于神经辐射场的神经体绘制表示。构建这种表示的一个关键挑战是建模外观变化，尤其是在嘴部区域（即嘴唇和牙齿）。因此，我们提出了一种基于变形场的混合基，允许我们在不同的外观状态之间进行插值。我们在捕获的真实世界数据上评估了我们的方法，并与最先进的单目重建方法进行了比较。与这些方法相比，我们的方法是第一个重建完整360°Avatar的单目技术。

🔬 方法详解

问题定义：现有单目人像Avatar重建方法依赖于3DMM等技术进行面部跟踪，但这些方法在处理侧面和背面视角时存在局限性，尤其是在缺少面部关键点或人体解析掩码等信息时，导致重建的Avatar只能覆盖正面半球，无法实现360°完整重建。

核心思路：本文的核心思路是采用基于模板的跟踪方法，同时跟踪躯干、头部和面部表情，从而克服传统面部跟踪方法的视角限制。通过这种方式，可以从单目视频中获取人物在各个角度的外观信息，为后续的360°Avatar重建提供数据基础。

技术框架：该方法主要包含以下几个阶段：1) 使用单目视频作为输入，视频中人物在摄像头前旋转；2) 使用基于模板的跟踪方法，跟踪人物的躯干、头部和面部表情；3) 基于跟踪结果，训练一个基于神经辐射场（NeRF）的神经体绘制表示，该表示能够从任意视角渲染人物的外观；4) 为了更好地建模嘴部区域的外观变化，引入了基于变形场的混合基。

关键创新：该方法最重要的创新点在于提出了一种基于模板的全身跟踪方法，克服了传统面部跟踪方法的视角限制，实现了单目视频的360°人像Avatar重建。此外，使用变形场混合基来建模嘴部区域的外观变化，提高了重建Avatar的真实感。

关键设计：在训练神经辐射场时，使用了多视角图像作为监督信号。为了建模嘴部区域的外观变化，设计了一个基于变形场的混合基，该混合基能够根据不同的表情状态对神经辐射场的参数进行调整。具体的损失函数未知，但推测可能包含渲染损失和正则化项。

📊 实验亮点

该方法是第一个仅使用单目视频重建360°人像Avatar的技术。实验结果表明，该方法能够生成逼真的人像Avatar，尤其是在嘴部区域的细节表现方面优于现有方法。具体的性能数据和对比基线未知，但论文强调了其在360°重建方面的优势。

🎯 应用场景

该技术可应用于虚拟现实、增强现实、游戏、远程会议等领域。用户可以使用自己的360°Avatar进行虚拟社交、游戏互动和远程协作，从而提升用户体验和沉浸感。未来，该技术有望应用于个性化内容生成、虚拟形象定制等领域，具有广阔的应用前景。

📄 摘要（原文）

We propose 360° Volumetric Portrait (3VP) Avatar, a novel method for reconstructing 360° photo-realistic portrait avatars of human subjects solely based on monocular video inputs. State-of-the-art monocular avatar reconstruction methods rely on stable facial performance capturing. However, the common usage of 3DMM-based facial tracking has its limits; side-views can hardly be captured and it fails, especially, for back-views, as required inputs like facial landmarks or human parsing masks are missing. This results in incomplete avatar reconstructions that only cover the frontal hemisphere. In contrast to this, we propose a template-based tracking of the torso, head and facial expressions which allows us to cover the appearance of a human subject from all sides. Thus, given a sequence of a subject that is rotating in front of a single camera, we train a neural volumetric representation based on neural radiance fields. A key challenge to construct this representation is the modeling of appearance changes, especially, in the mouth region (i.e., lips and teeth). We, therefore, propose a deformation-field-based blend basis which allows us to interpolate between different appearance states. We evaluate our approach on captured real-world data and compare against state-of-the-art monocular reconstruction methods. In contrast to those, our method is the first monocular technique that reconstructs an entire 360° avatar.

360° Volumetric Portrait Avatar

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册