Capturing Head Avatar with Hand Contacts from a Monocular Video

📄 arXiv: 2510.17181v1 📥 PDF

作者: Haonan He, Yufeng Zheng, Jie Song

分类: cs.CV

发布日期: 2025-10-20

备注: ICCV 2025


💡 一句话要点

提出一种单目视频头部Avatar重建方法,解决手部交互形变建模问题

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting)

关键词: 头部Avatar重建 手部交互 非刚性形变 深度顺序损失 接触正则化

📋 核心要点

  1. 现有头部Avatar重建方法忽略了手部与面部的自然交互,无法捕捉细微的面部形变。
  2. 提出联合学习头部Avatar和手部交互形变的框架,利用深度顺序损失和接触正则化约束手部和面部的相对姿态。
  3. 通过学习手部交互引起的形变PCA基,并结合接触损失,提升重建Avatar的真实感和物理合理性。

📝 摘要(中文)

逼真的3D头部Avatar对于远程呈现、游戏和VR至关重要。然而,大多数方法仅关注面部区域,忽略了自然的手部-面部交互,例如手托下巴或手指轻触脸颊等,这些交互传达了沉思等认知状态。本文提出了一种新颖的框架,可以联合学习详细的头部Avatar以及手部-面部交互引起的非刚性形变。该任务存在两个主要挑战。首先,简单地分别跟踪手和面部无法捕捉它们之间的相对姿势。为了克服这个问题,我们提出在姿势跟踪期间结合深度顺序损失和接触正则化,以确保面部和手之间的正确空间关系。其次,对于手部引起的形变,没有公开可用的先验知识,这使得从单目视频中学习它们变得非常困难。为了解决这个问题,我们从一个人脸-手部交互数据集中学习了一个特定于手部引起的脸部形变的PCA基。这使得问题简化为估计一组紧凑的PCA参数,而不是完整的空间形变场。此外,受到基于物理的模拟的启发,我们结合了一个接触损失,该损失提供了额外的监督,显著减少了相互渗透伪影,并增强了结果的物理合理性。我们在iPhone拍摄的RGB(D)视频上评估了我们的方法。此外,为了更好地评估重建的几何体,我们构建了一个具有各种类型手部交互的Avatar合成数据集。我们表明,与SOTA表面重建方法相比,我们的方法可以捕获更好的外观和更准确的面部形变几何体。

🔬 方法详解

问题定义:现有头部Avatar重建方法主要关注面部区域,忽略了手部与面部的交互,导致重建的Avatar缺乏真实感,无法表达例如思考等认知状态。直接分别跟踪手部和面部,难以保证它们之间的空间关系,并且缺乏手部交互引起的面部形变的先验知识,使得从单目视频中学习这些形变非常困难。

核心思路:本文的核心思路是联合建模头部Avatar和手部交互引起的非刚性形变。通过结合深度顺序损失和接触正则化来约束手部和面部的相对姿态,并学习手部交互引起的形变PCA基来解决形变建模问题。此外,引入接触损失来减少相互渗透伪影,增强结果的物理合理性。

技术框架:该方法主要包含以下几个阶段:1) 手部和面部姿态跟踪:使用现有的姿态估计方法分别跟踪手部和面部的姿态。2) 相对姿态约束:通过深度顺序损失和接触正则化来约束手部和面部的相对姿态,确保它们之间的空间关系正确。3) 形变建模:学习手部交互引起的形变PCA基,并将形变建模问题简化为估计一组紧凑的PCA参数。4) Avatar重建:基于估计的姿态和形变参数,重建头部Avatar。

关键创新:该方法最重要的技术创新点在于:1) 提出了深度顺序损失和接触正则化来约束手部和面部的相对姿态,解决了分别跟踪手部和面部导致的姿态不一致问题。2) 学习了手部交互引起的形变PCA基,解决了缺乏手部交互形变先验知识的问题,并降低了形变建模的复杂度。3) 引入了接触损失,减少了相互渗透伪影,增强了结果的物理合理性。

关键设计:深度顺序损失用于约束手部和面部之间的深度顺序关系。接触正则化用于惩罚手部和面部之间的穿透。形变PCA基从一个人脸-手部交互数据集中学习得到。接触损失基于物理模拟,用于约束手部和面部之间的接触力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在RGB(D)视频和合成数据集上进行了评估。实验结果表明,与SOTA表面重建方法相比,该方法能够捕获更好的外观和更准确的面部形变几何体。尤其是在手部与面部交互的区域,重建效果得到了显著提升。合成数据集的构建也为后续研究提供了便利。

🎯 应用场景

该研究成果可应用于远程呈现、虚拟现实、游戏等领域,提升用户在虚拟环境中的交互体验。通过重建具有自然手部交互的头部Avatar,可以增强虚拟角色的表达能力,使其更加逼真和生动。此外,该技术还可以用于人机交互、情感识别等领域。

📄 摘要(原文)

Photorealistic 3D head avatars are vital for telepresence, gaming, and VR. However, most methods focus solely on facial regions, ignoring natural hand-face interactions, such as a hand resting on the chin or fingers gently touching the cheek, which convey cognitive states like pondering. In this work, we present a novel framework that jointly learns detailed head avatars and the non-rigid deformations induced by hand-face interactions. There are two principal challenges in this task. First, naively tracking hand and face separately fails to capture their relative poses. To overcome this, we propose to combine depth order loss with contact regularization during pose tracking, ensuring correct spatial relationships between the face and hand. Second, no publicly available priors exist for hand-induced deformations, making them non-trivial to learn from monocular videos. To address this, we learn a PCA basis specific to hand-induced facial deformations from a face-hand interaction dataset. This reduces the problem to estimating a compact set of PCA parameters rather than a full spatial deformation field. Furthermore, inspired by physics-based simulation, we incorporate a contact loss that provides additional supervision, significantly reducing interpenetration artifacts and enhancing the physical plausibility of the results. We evaluate our approach on RGB(D) videos captured by an iPhone. Additionally, to better evaluate the reconstructed geometry, we construct a synthetic dataset of avatars with various types of hand interactions. We show that our method can capture better appearance and more accurate deforming geometry of the face than SOTA surface reconstruction methods.