TexAvatars : Hybrid Texel-3D Representations for Stable Rigging of Photorealistic Gaussian Head Avatars
作者: Jaeseong Lee, Junyeong Ahn, Taewoong Kang, Jaegul Choo
分类: cs.GR, cs.AI, cs.CV
发布日期: 2025-12-24
备注: 3DV 2026, Project page with videos: https://summertight.github.io/TexAvatars/
💡 一句话要点
TexAvatars:结合Texel和3D表示,实现逼真高斯头部头像的稳定绑定
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)
关键词: 3D头部头像 高斯表示 解析绑定 纹理空间 网格感知
📋 核心要点
- 现有头部头像方法在极端姿势和表情下泛化性不足,尤其是在重演场景中,难以处理未见过的表情和姿势。
- TexAvatars结合解析绑定的几何基础和纹理空间的连续性,通过网格感知的雅可比矩阵驱动3D变形,实现平滑过渡。
- TexAvatars在极端姿势和表情变化下实现了最先进的性能,展示了在头部重演设置中的强大泛化能力。
📝 摘要(中文)
构建可驱动且逼真的3D头部头像已成为AR/XR的核心任务,能够实现沉浸式和富有表现力的用户体验。随着3D高斯等高保真和高效表示的出现,最近的研究已转向超细节头部头像。现有方法通常分为两类:基于规则的解析绑定或基于神经网络的变形场。虽然在受限环境中有效,但两种方法通常无法推广到未见过的表情和姿势,尤其是在极端的重演场景中。其他方法将高斯约束到3DMM的全局纹理空间,以降低渲染复杂度。然而,这些基于纹理的头像往往未能充分利用底层网格结构。它们应用最少的解析变形,并严重依赖UV空间中的神经回归器和启发式正则化,这削弱了几何一致性并限制了外推到复杂的、分布外的变形。为了解决这些限制,我们引入了TexAvatars,一种混合头像表示,它将解析绑定的显式几何基础与纹理空间的空间连续性相结合。我们的方法通过CNN预测UV空间中的局部几何属性,但通过网格感知的雅可比矩阵驱动3D变形,从而实现跨三角形边界的平滑和语义上有意义的过渡。这种混合设计将语义建模与几何控制分离,从而提高了泛化性、可解释性和稳定性。此外,TexAvatars以高保真度捕捉细粒度的表情效果,包括肌肉引起的皱纹、眉间纹和逼真的口腔几何形状。我们的方法在极端的姿势和表情变化下实现了最先进的性能,展示了在具有挑战性的头部重演设置中的强大泛化能力。
🔬 方法详解
问题定义:现有3D头部头像构建方法,如基于规则的解析绑定和基于神经网络的变形场,在处理极端姿势和表情变化时泛化能力不足。基于纹理空间的方法虽然降低了渲染复杂度,但过度依赖神经回归器和启发式正则化,削弱了几何一致性,限制了对复杂变形的外推能力。
核心思路:TexAvatars的核心思路是将解析绑定的显式几何基础与纹理空间的连续性相结合,实现语义建模与几何控制的分离。通过在UV空间预测局部几何属性,并利用网格感知的雅可比矩阵驱动3D变形,从而在保证几何一致性的前提下,提高泛化能力和稳定性。
技术框架:TexAvatars的技术框架包含以下几个主要阶段:1) 使用CNN在UV空间预测局部几何属性;2) 利用网格结构计算网格感知的雅可比矩阵;3) 通过雅可比矩阵驱动3D变形,实现头部头像的姿势和表情控制;4) 使用3D高斯表示进行渲染,生成逼真的头部头像。
关键创新:TexAvatars的关键创新在于其混合表示方法,它将解析绑定的几何控制与纹理空间的连续性相结合。通过网格感知的雅可比矩阵驱动变形,实现了跨三角形边界的平滑过渡,并提高了对复杂变形的泛化能力。这种混合设计避免了过度依赖神经回归器,从而提高了几何一致性和可解释性。
关键设计:TexAvatars的关键设计包括:1) 使用CNN预测UV空间中的局部几何属性,例如顶点位置和法线;2) 设计网格感知的雅可比矩阵,以确保变形的平滑性和几何一致性;3) 使用3D高斯表示进行渲染,以实现高保真度的头部头像生成。损失函数可能包含几何一致性损失、渲染损失等,以优化网络参数。
🖼️ 关键图片
📊 实验亮点
TexAvatars在极端姿势和表情变化下实现了最先进的性能,尤其是在具有挑战性的头部重演设置中。该方法能够捕捉细粒度的表情效果,包括肌肉引起的皱纹、眉间纹和逼真的口腔几何形状,从而生成更逼真的头部头像。具体性能数据和对比基线(如PSNR、SSIM等)未知,但论文强调了其在泛化能力方面的显著提升。
🎯 应用场景
TexAvatars可应用于AR/XR、虚拟会议、游戏等领域,提供更逼真、可控的3D头部头像。该技术能够提升用户在虚拟环境中的沉浸感和交互体验,并为个性化虚拟形象定制提供更强大的工具。未来,该技术有望应用于远程医疗、教育等领域,实现更自然的远程沟通。
📄 摘要(原文)
Constructing drivable and photorealistic 3D head avatars has become a central task in AR/XR, enabling immersive and expressive user experiences. With the emergence of high-fidelity and efficient representations such as 3D Gaussians, recent works have pushed toward ultra-detailed head avatars. Existing approaches typically fall into two categories: rule-based analytic rigging or neural network-based deformation fields. While effective in constrained settings, both approaches often fail to generalize to unseen expressions and poses, particularly in extreme reenactment scenarios. Other methods constrain Gaussians to the global texel space of 3DMMs to reduce rendering complexity. However, these texel-based avatars tend to underutilize the underlying mesh structure. They apply minimal analytic deformation and rely heavily on neural regressors and heuristic regularization in UV space, which weakens geometric consistency and limits extrapolation to complex, out-of-distribution deformations. To address these limitations, we introduce TexAvatars, a hybrid avatar representation that combines the explicit geometric grounding of analytic rigging with the spatial continuity of texel space. Our approach predicts local geometric attributes in UV space via CNNs, but drives 3D deformation through mesh-aware Jacobians, enabling smooth and semantically meaningful transitions across triangle boundaries. This hybrid design separates semantic modeling from geometric control, resulting in improved generalization, interpretability, and stability. Furthermore, TexAvatars captures fine-grained expression effects, including muscle-induced wrinkles, glabellar lines, and realistic mouth cavity geometry, with high fidelity. Our method achieves state-of-the-art performance under extreme pose and expression variations, demonstrating strong generalization in challenging head reenactment settings.