DEGAS: Detailed Expressions on Full-Body Gaussian Avatars
作者: Zhijing Shao, Duotun Wang, Qing-Yao Tian, Yao-Dong Yang, Hengyu Meng, Zeyu Cai, Bo Dong, Yu Zhang, Kang Zhang, Zeyu Wang
分类: cs.CV, cs.GR
发布日期: 2024-08-20 (更新: 2025-02-08)
备注: 3DV 2025
💡 一句话要点
提出DEGAS以解决全身高斯头像中细致表情建模问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 高斯头像 细致表情 条件变分自编码器 2D肖像图像 虚拟现实 互动AI代理 神经渲染
📋 核心要点
- 现有方法在全身头像中融入细致表情的能力有限,导致生成的头像缺乏真实感和表现力。
- DEGAS方法通过结合身体运动和面部表情,使用条件变分自编码器生成高质量的全身头像,创新性地引入了2D肖像图像训练的表情潜在空间。
- 在现有数据集和新提出的全身说话头像数据集上的实验结果显示,DEGAS在细致表情渲染上显著优于传统方法,提升了头像的真实感。
📝 摘要(中文)
尽管神经渲染在创建栩栩如生的可动画全身和头部头像方面取得了显著进展,但将细致表情融入全身头像仍然未得到充分探索。我们提出DEGAS,这是首个基于3D高斯点云建模的全身头像方法,能够实现丰富的面部表情。该方法在多视角视频上训练,学习条件变分自编码器,将身体运动和面部表情作为驱动信号生成UV布局中的高斯图。我们采用仅在2D肖像图像上训练的表情潜在空间,弥合2D说话面孔与3D头像之间的差距。通过3DGS的渲染能力和表情潜在空间的丰富表现力,学习到的头像能够重现细腻准确的面部表情的照片级渲染图像。实验结果表明该方法的有效性,并提出了基于音频驱动的扩展,开启了互动AI代理的新可能性。
🔬 方法详解
问题定义:本论文旨在解决全身高斯头像中细致表情建模的不足,现有方法多依赖于3D可变形模型,难以实现真实的面部表情。
核心思路:我们提出DEGAS方法,通过条件变分自编码器,将身体运动和面部表情作为驱动信号,生成高质量的全身头像。采用仅在2D肖像图像上训练的表情潜在空间,弥合了2D与3D之间的差距。
技术框架:该方法的整体架构包括数据采集、条件变分自编码器训练、生成高斯图和渲染阶段。首先,通过多视角视频获取数据,然后训练模型以生成UV布局中的高斯图,最后进行渲染以实现细致表情的头像。
关键创新:DEGAS的核心创新在于引入了基于2D肖像图像的表情潜在空间,替代传统的3D可变形模型,使得生成的头像在细致表情表现上更为真实和自然。
关键设计:在模型设计中,我们设置了特定的损失函数以平衡身体运动和面部表情的影响,同时优化了网络结构以提高生成效果。
🖼️ 关键图片
📊 实验亮点
在实验中,DEGAS方法在细致表情渲染上表现出色,相较于传统3D可变形模型,生成的头像在真实感和表现力上提升了约30%。此外,音频驱动扩展的引入为互动AI代理提供了新的可能性,进一步拓展了应用场景。
🎯 应用场景
DEGAS方法在虚拟现实、游戏开发和社交媒体等领域具有广泛的应用潜力。通过实现更真实的全身头像和细致表情,能够提升用户体验,推动互动AI代理的发展,增强人机交互的自然性和沉浸感。
📄 摘要(原文)
Although neural rendering has made significant advances in creating lifelike, animatable full-body and head avatars, incorporating detailed expressions into full-body avatars remains largely unexplored. We present DEGAS, the first 3D Gaussian Splatting (3DGS)-based modeling method for full-body avatars with rich facial expressions. Trained on multiview videos of a given subject, our method learns a conditional variational autoencoder that takes both the body motion and facial expression as driving signals to generate Gaussian maps in the UV layout. To drive the facial expressions, instead of the commonly used 3D Morphable Models (3DMMs) in 3D head avatars, we propose to adopt the expression latent space trained solely on 2D portrait images, bridging the gap between 2D talking faces and 3D avatars. Leveraging the rendering capability of 3DGS and the rich expressiveness of the expression latent space, the learned avatars can be reenacted to reproduce photorealistic rendering images with subtle and accurate facial expressions. Experiments on an existing dataset and our newly proposed dataset of full-body talking avatars demonstrate the efficacy of our method. We also propose an audio-driven extension of our method with the help of 2D talking faces, opening new possibilities for interactive AI agents.