InteractAvatar: Modeling Hand-Face Interaction in Photorealistic Avatars with Deformable Gaussians

📄 arXiv: 2504.07949v1 📥 PDF

作者: Kefan Chen, Sergiu Oprea, Justin Theiss, Sreyas Mohan, Srinath Sridhar, Aayush Prakash

分类: cs.CV

发布日期: 2025-04-10


💡 一句话要点

InteractAvatar:提出基于可变形高斯体的逼真手部-面部交互头像建模方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 数字头像 手部建模 面部交互 高斯溅射 动态建模

📋 核心要点

  1. 现有3D头像模型忽略了手部与身体,特别是手部与面部交互的关键细节,导致头像行为不够自然逼真。
  2. InteractAvatar结合模板模型、3D高斯溅射和动态细化模块,捕捉姿势相关的手部细节和手部-面部交互的几何与外观动态。
  3. 实验证明InteractAvatar能够从单目或多视角视频中高保真地重建手部和手部-面部交互,并能以新的姿势进行动画。

📝 摘要(中文)

随着社区对数字头像兴趣的日益增长,以及表情和手势在交流中的重要性,建模自然的头像行为仍然是远程会议、游戏和AR/VR等诸多行业面临的重要挑战。人手是与环境交互的主要工具,对于逼真的人类行为建模至关重要,但现有的3D手部和头部头像模型通常忽略了手部与身体交互的关键方面,例如手部与面部之间的交互。我们提出了InteractAvatar,这是第一个忠实捕捉动态手部和非刚性手部-面部交互的逼真外观的模型。我们新颖的动态高斯手部模型,结合了模板模型和3D高斯溅射以及动态细化模块,捕捉了姿势相关的变化,例如在关节运动期间产生的细微皱纹和复杂阴影。重要的是,我们的手部-面部交互模块对常见手势背后的微妙几何形状和外观动态进行建模。通过新视角合成、自我重演和跨身份重演的实验,我们证明了InteractAvatar可以从单目或多视角视频中重建具有高保真细节的手部和手部-面部交互,并可以用新的姿势进行动画。

🔬 方法详解

问题定义:现有方法在建模3D头像时,对手部与面部的交互细节捕捉不足,导致生成的头像在进行诸如触摸脸部等动作时,真实感较差。尤其是在皱纹、阴影等细节上,现有方法难以达到逼真的效果。因此,论文旨在解决如何高保真地建模手部与面部交互的问题。

核心思路:论文的核心思路是利用动态高斯体(Dynamic Gaussian)来表示手部,并结合模板模型和动态细化模块,从而能够捕捉手部姿态变化带来的细节变化,如皱纹和阴影。同时,设计专门的手部-面部交互模块,建模手部与面部接触时的几何和外观动态。

技术框架:InteractAvatar的整体框架包含以下几个主要模块:1) 动态高斯手部模型:使用3D高斯体表示手部,并结合模板模型进行初始化,通过动态细化模块捕捉姿态相关的细节变化。2) 手部-面部交互模块:专门用于建模手部与面部接触时的几何和外观动态,确保交互的真实感。3) 渲染模块:将高斯体渲染成图像,并进行优化。整个流程从单目或多视角视频中提取手部和面部信息,然后输入到InteractAvatar中进行训练,最终得到可以进行新视角合成和动画的逼真头像。

关键创新:论文的关键创新在于提出了动态高斯手部模型,该模型能够有效地捕捉手部姿态变化带来的细节变化,如皱纹和阴影。此外,专门设计的手部-面部交互模块也是一个重要的创新点,它能够建模手部与面部接触时的几何和外观动态,从而提高交互的真实感。与现有方法相比,InteractAvatar能够生成更加逼真的手部和手部-面部交互效果。

关键设计:动态高斯手部模型使用了3D高斯溅射技术,每个高斯体都包含位置、颜色、不透明度等参数。动态细化模块可能使用了神经网络来预测高斯体的参数变化,从而捕捉姿态相关的细节变化。损失函数可能包含图像重建损失、正则化损失等,用于优化高斯体的参数。手部-面部交互模块的具体实现细节未知,可能使用了形变场或者其他技术来建模交互的几何和外观动态。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过新视角合成、自我重演和跨身份重演等实验,验证了InteractAvatar的有效性。实验结果表明,InteractAvatar能够从单目或多视角视频中重建具有高保真细节的手部和手部-面部交互,并能以新的姿势进行动画。具体的性能数据和提升幅度未知,但从视觉效果上看,InteractAvatar生成的头像比现有方法更加逼真。

🎯 应用场景

InteractAvatar在远程会议、游戏、AR/VR等领域具有广泛的应用前景。它可以用于创建更加逼真和自然的数字头像,提高用户在虚拟环境中的沉浸感和交互体验。例如,在远程会议中,使用InteractAvatar可以使交流更加生动和富有表现力。在游戏中,它可以用于创建更加真实的角色形象。在AR/VR中,它可以用于增强虚拟现实的真实感。

📄 摘要(原文)

With the rising interest from the community in digital avatars coupled with the importance of expressions and gestures in communication, modeling natural avatar behavior remains an important challenge across many industries such as teleconferencing, gaming, and AR/VR. Human hands are the primary tool for interacting with the environment and essential for realistic human behavior modeling, yet existing 3D hand and head avatar models often overlook the crucial aspect of hand-body interactions, such as between hand and face. We present InteracttAvatar, the first model to faithfully capture the photorealistic appearance of dynamic hand and non-rigid hand-face interactions. Our novel Dynamic Gaussian Hand model, combining template model and 3D Gaussian Splatting as well as a dynamic refinement module, captures pose-dependent change, e.g. the fine wrinkles and complex shadows that occur during articulation. Importantly, our hand-face interaction module models the subtle geometry and appearance dynamics that underlie common gestures. Through experiments of novel view synthesis, self reenactment and cross-identity reenactment, we demonstrate that InteracttAvatar can reconstruct hand and hand-face interactions from monocular or multiview videos with high-fidelity details and be animated with novel poses.