Capturing Head Avatar with Hand Contacts from a Monocular Video

作者: Haonan He, Yufeng Zheng, Jie Song

分类: cs.CV

发布日期: 2025-10-20

备注: ICCV 2025

💡 一句话要点

提出一种单目视频头部Avatar重建方法，解决手部交互形变建模问题

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion) 支柱七：动作重定向 (Motion Retargeting)

关键词: 头部Avatar重建 手部交互 非刚性形变 单目视频 深度顺序损失

📋 核心要点

现有头部Avatar重建方法忽略了手部与面部的自然交互，无法捕捉细微的面部形变。
提出联合学习头部Avatar和手部交互形变的框架，利用深度顺序损失和接触正则化保证空间关系。
通过学习手部诱导形变的PCA基，并引入接触损失，提升重建效果和物理合理性。

📝 摘要（中文）

逼真的3D头部Avatar对于远程呈现、游戏和VR至关重要。然而，大多数方法仅关注面部区域，忽略了自然的手部-面部交互，例如手托下巴或手指轻触脸颊，这些交互传达了沉思等认知状态。本文提出了一种新颖的框架，可以联合学习详细的头部Avatar以及手部-面部交互引起的非刚性形变。该任务存在两个主要挑战。首先，简单地分别跟踪手和面部无法捕捉它们之间的相对姿势。为了克服这个问题，我们提出在姿势跟踪期间结合深度顺序损失和接触正则化，确保面部和手之间的正确空间关系。其次，对于手部引起的形变，没有公开可用的先验知识，这使得从单目视频中学习它们变得非常困难。为了解决这个问题，我们从面部-手部交互数据集中学习了特定于手部引起的面部形变的PCA基。这使得问题简化为估计一组紧凑的PCA参数，而不是完整的空间形变场。此外，受到基于物理的仿真的启发，我们结合了一个接触损失，该损失提供了额外的监督，显著减少了相互渗透伪影，并增强了结果的物理合理性。我们在iPhone拍摄的RGB(D)视频上评估了我们的方法。此外，为了更好地评估重建的几何体，我们构建了一个具有各种类型手部交互的Avatar合成数据集。我们表明，与SOTA表面重建方法相比，我们的方法可以捕获更好的外观和更准确的面部形变几何体。

🔬 方法详解

问题定义：现有3D头部Avatar重建方法主要关注面部区域，忽略了手部与面部的交互，导致无法捕捉到手部动作引起的细微面部形变。直接分别跟踪手部和面部，难以保证它们之间的相对姿态和空间关系，从而影响重建质量。此外，缺乏手部交互形变的先验知识，使得从单目视频中学习这些形变非常困难。

核心思路：论文的核心思路是联合学习头部Avatar和手部交互引起的非刚性形变。通过结合深度顺序损失和接触正则化来约束手部和面部的相对姿态，并利用从数据集中学习到的PCA基来表示手部诱导的面部形变。此外，引入接触损失来减少伪影并增强物理合理性。这样设计的目的是为了克服单目视频重建中手部交互形变建模的挑战，提高重建的真实感和准确性。

技术框架：该框架主要包含以下几个阶段：1) 姿态跟踪：分别跟踪手部和面部的姿态，并结合深度顺序损失和接触正则化来优化相对姿态。2) 形变建模：利用从面部-手部交互数据集中学习到的PCA基来表示手部诱导的面部形变。3) 渲染和优化：将估计的姿态和形变参数用于渲染图像，并使用光度损失和接触损失来优化参数。整体流程是从单目视频中提取手部和面部的姿态信息，然后利用学习到的先验知识和约束条件来重建具有手部交互的3D头部Avatar。

关键创新：该论文最重要的技术创新点在于：1) 提出了结合深度顺序损失和接触正则化的姿态跟踪方法，有效地约束了手部和面部的相对姿态。2) 利用PCA基来表示手部诱导的面部形变，降低了学习的难度，并提高了重建的鲁棒性。3) 引入了接触损失，减少了相互渗透伪影，并增强了结果的物理合理性。与现有方法相比，该方法能够更准确地重建具有手部交互的3D头部Avatar。

关键设计：1) 深度顺序损失：用于约束手部和面部之间的深度关系，防止相互穿透。2) 接触正则化：用于鼓励手部和面部之间的接触，并约束接触区域的形变。3) PCA基：从面部-手部交互数据集中学习，用于表示手部诱导的面部形变。4) 接触损失：基于物理的仿真，用于惩罚手部和面部之间的相互渗透，并鼓励物理合理的接触。

📊 实验亮点

该方法在RGB(D)视频和合成数据集上进行了评估。实验结果表明，与SOTA表面重建方法相比，该方法能够捕获更好的外观和更准确的面部形变几何体。尤其是在手部与面部交互的区域，重建效果得到了显著提升。合成数据集的定量评估也验证了该方法在几何重建方面的优势。

🎯 应用场景

该研究成果可应用于远程呈现、虚拟现实、游戏等领域。例如，在远程会议中，可以更真实地呈现用户的面部表情和手部动作，增强交流的沉浸感。在虚拟现实游戏中，可以创建更逼真的虚拟角色，提升游戏体验。此外，该技术还可以用于人机交互、动画制作等领域，具有广泛的应用前景。

📄 摘要（原文）

Photorealistic 3D head avatars are vital for telepresence, gaming, and VR. However, most methods focus solely on facial regions, ignoring natural hand-face interactions, such as a hand resting on the chin or fingers gently touching the cheek, which convey cognitive states like pondering. In this work, we present a novel framework that jointly learns detailed head avatars and the non-rigid deformations induced by hand-face interactions. There are two principal challenges in this task. First, naively tracking hand and face separately fails to capture their relative poses. To overcome this, we propose to combine depth order loss with contact regularization during pose tracking, ensuring correct spatial relationships between the face and hand. Second, no publicly available priors exist for hand-induced deformations, making them non-trivial to learn from monocular videos. To address this, we learn a PCA basis specific to hand-induced facial deformations from a face-hand interaction dataset. This reduces the problem to estimating a compact set of PCA parameters rather than a full spatial deformation field. Furthermore, inspired by physics-based simulation, we incorporate a contact loss that provides additional supervision, significantly reducing interpenetration artifacts and enhancing the physical plausibility of the results. We evaluate our approach on RGB(D) videos captured by an iPhone. Additionally, to better evaluate the reconstructed geometry, we construct a synthetic dataset of avatars with various types of hand interactions. We show that our method can capture better appearance and more accurate deforming geometry of the face than SOTA surface reconstruction methods.

Capturing Head Avatar with Hand Contacts from a Monocular Video

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册