DICE: End-to-end Deformation Capture of Hand-Face Interactions from a Single Image

作者: Qingxuan Wu, Zhiyang Dou, Sirui Xu, Soshi Shimada, Chen Wang, Zhengming Yu, Yuan Liu, Cheng Lin, Zeyu Cao, Taku Komura, Vladislav Golyanik, Christian Theobalt, Wenping Wang, Lingjie Liu

分类: cs.CV

发布日期: 2024-06-26 (更新: 2025-03-14)

备注: ICLR 2025

💡 一句话要点

DICE：首个单图端到端手脸交互形变捕捉方法

🎯 匹配领域: 支柱七：动作重定向 (Motion Retargeting)

关键词: 手脸交互 形变捕捉 单目重建 Transformer 弱监督学习

📋 核心要点

现有方法Decaf依赖3D标注数据，优化耗时且泛化性差，难以处理真实场景下的手脸交互形变捕捉。
DICE提出一种端到端的Transformer架构，解耦局部形变场和全局网格顶点位置的回归，提升形变和接触估计精度。
DICE采用弱监督训练，利用2D关键点深度和姿势对抗先验，在真实数据上达到SOTA性能，速度提升显著。

📝 摘要（中文）

从单张图像中重建具有形变的3D手脸交互是一个具有挑战性但至关重要的任务，在AR、VR和游戏等领域有着广泛的应用。挑战主要来自单视角手脸交互中的自遮挡、手和脸之间多样的空间关系、复杂的形变以及单视角设置的模糊性。Decaf是第一个也是唯一一个用于手脸交互恢复的方法，它引入了全局拟合优化，该优化由在工作室收集的带有3D标注的数据上训练的接触和形变估计网络指导。然而，Decaf存在耗时的优化过程和泛化能力有限的问题，因为它依赖于手脸交互数据的3D标注。为了解决这些问题，我们提出了DICE，这是第一个从单张图像中进行形变感知手脸交互恢复的端到端方法。DICE使用基于Transformer的架构同时估计手和脸的姿势、接触和形变。它通过将局部形变场和全局网格顶点位置的回归解耦到两个网络分支中，从而增强了形变和接触估计，以实现精确和鲁棒的手脸网格恢复。为了提高泛化能力，我们提出了一种弱监督训练方法，该方法使用没有3D ground-truth标注的真实图像来扩充训练集，并利用现成模型估计的2D关键点的深度和姿势的对抗先验进行监督。实验表明，DICE在标准基准和真实数据上，在准确性和物理合理性方面都达到了最先进的性能。此外，我们的方法在Nvidia 4090 GPU上以交互速率（20 fps）运行，而Decaf需要超过15秒才能处理单张图像。我们的代码将在发布后公开。

🔬 方法详解

问题定义：论文旨在解决从单张图像中准确、高效地重建具有形变的3D手脸交互的问题。现有方法Decaf依赖于带有3D标注的特定数据集，导致泛化能力不足，且优化过程耗时，难以应用于实时场景。其痛点在于对3D标注的依赖以及复杂的优化流程。

核心思路：DICE的核心思路是设计一个端到端的网络，直接从单张图像预测手和脸的姿势、接触和形变。通过解耦局部形变场和全局网格顶点位置的回归，并结合弱监督训练，提高模型对真实场景的适应性和重建精度。这种设计避免了耗时的优化过程，并减少了对3D标注数据的依赖。

技术框架：DICE的整体架构是一个基于Transformer的端到端网络。该网络包含以下主要模块：1) 特征提取模块，用于从输入图像中提取视觉特征；2) Transformer编码器，用于建模手和脸之间的关系；3) 姿势估计分支，用于预测手和脸的全局姿势；4) 形变估计分支，用于预测局部形变场；5) 接触估计分支，用于预测手和脸之间的接触区域。这些模块协同工作，最终生成具有形变的3D手脸交互网格。

关键创新：DICE最重要的技术创新点在于：1) 端到端的网络结构，避免了复杂的优化过程；2) 解耦局部形变场和全局网格顶点位置的回归，提高了形变估计的精度；3) 弱监督训练方法，利用2D关键点深度和姿势对抗先验，增强了模型的泛化能力。与Decaf相比，DICE无需3D标注数据，且速度更快，精度更高。

关键设计：DICE的关键设计包括：1) 使用Transformer编码器建模手和脸之间的关系，捕捉长程依赖；2) 设计独立的形变估计分支，专注于预测局部形变场；3) 采用对抗损失，鼓励生成的姿势符合真实分布；4) 使用2D关键点深度作为弱监督信号，指导3D重建。

📊 实验亮点

DICE在标准benchmark和真实数据上均取得了SOTA性能。在精度方面，DICE显著优于Decaf。在速度方面，DICE在Nvidia 4090 GPU上实现了20 fps的交互速率，而Decaf需要超过15秒才能处理单张图像。这表明DICE在实际应用中具有更高的效率和实用性。

🎯 应用场景

DICE在AR/VR、游戏、人机交互等领域具有广泛的应用前景。例如，在AR/VR中，DICE可以用于创建更逼真的虚拟化身，实现更自然的手势交互。在游戏中，DICE可以用于捕捉玩家的手部动作，实现更沉浸式的游戏体验。此外，DICE还可以应用于远程协作、手语识别等领域，具有重要的实际价值和未来影响。

📄 摘要（原文）

Reconstructing 3D hand-face interactions with deformations from a single image is a challenging yet crucial task with broad applications in AR, VR, and gaming. The challenges stem from self-occlusions during single-view hand-face interactions, diverse spatial relationships between hands and face, complex deformations, and the ambiguity of the single-view setting. The first and only method for hand-face interaction recovery, Decaf, introduces a global fitting optimization guided by contact and deformation estimation networks trained on studio-collected data with 3D annotations. However, Decaf suffers from a time-consuming optimization process and limited generalization capability due to its reliance on 3D annotations of hand-face interaction data. To address these issues, we present DICE, the first end-to-end method for Deformation-aware hand-face Interaction reCovEry from a single image. DICE estimates the poses of hands and faces, contacts, and deformations simultaneously using a Transformer-based architecture. It features disentangling the regression of local deformation fields and global mesh vertex locations into two network branches, enhancing deformation and contact estimation for precise and robust hand-face mesh recovery. To improve generalizability, we propose a weakly-supervised training approach that augments the training set using in-the-wild images without 3D ground-truth annotations, employing the depths of 2D keypoints estimated by off-the-shelf models and adversarial priors of poses for supervision. Our experiments demonstrate that DICE achieves state-of-the-art performance on a standard benchmark and in-the-wild data in terms of accuracy and physical plausibility. Additionally, our method operates at an interactive rate (20 fps) on an Nvidia 4090 GPU, whereas Decaf requires more than 15 seconds for a single image. Our code will be publicly available upon publication.

DICE: End-to-end Deformation Capture of Hand-Face Interactions from a Single Image

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理