TextToon: Real-Time Text Toonify Head Avatar from Single Video

📄 arXiv: 2410.07160v1 📥 PDF

作者: Luchuan Song, Lele Chen, Celong Liu, Pinxin Liu, Chenliang Xu

分类: cs.CV, cs.GR

发布日期: 2024-09-23

备注: Project Page: https://songluchuan.github.io/TextToon/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

TextToon:提出一种基于单目视频的实时文本驱动卡通头像生成方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 卡通头像生成 单目视频 实时驱动 风格化 Tri-plane 高斯变形场 对比学习

📋 核心要点

  1. 现有卡通头像生成方法依赖多视角建模,难以部署且控制受限,无法满足实时性需求。
  2. TextToon利用条件嵌入Tri-plane学习风格化面部表示,结合高斯变形场实现高质量生成。
  3. 该方法在GPU上达到48FPS,移动端15-18FPS,实验证明其在质量和实时性上优于现有方法。

📝 摘要(中文)

本文提出了一种名为TextToon的方法,用于生成可驱动的卡通化头像。给定一段短的单目视频序列以及关于头像风格的文本指令,我们的模型能够生成高保真度的卡通化头像,该头像可以由另一个具有任意身份的视频实时驱动。现有的相关工作严重依赖于多视角建模,通过纹理嵌入来恢复几何结构,并以静态方式呈现,导致控制上的局限性。多视角视频输入也使得这些模型难以部署在实际应用中。为了解决这些问题,我们采用了一种条件嵌入Tri-plane来学习高真实感和风格化的面部表示,并将其置于高斯变形场中。此外,我们通过引入自适应像素平移神经网络并利用patch-aware对比学习来扩展3D高斯溅射的风格化能力,从而实现高质量的图像生成。为了将我们的工作推向消费者应用,我们开发了一个实时系统,该系统可以在GPU机器上以48 FPS的速度运行,在移动机器上以15-18 FPS的速度运行。大量的实验表明,在质量和实时动画方面,我们的方法在生成文本头像方面优于现有方法。更多细节请参考我们的项目页面:https://songluchuan.github.io/TextToon/。

🔬 方法详解

问题定义:现有卡通头像生成方法主要依赖多视角视频输入,通过纹理嵌入恢复几何信息,生成静态的卡通头像。这种方法不仅需要复杂的设置,而且难以实时驱动和控制,无法满足实际应用的需求。此外,多视角建模也限制了其在移动设备等资源受限平台上的部署。因此,如何仅使用单目视频和文本指令,生成高质量、可实时驱动的卡通头像,是本文要解决的核心问题。

核心思路:TextToon的核心思路是利用条件嵌入Tri-plane学习风格化的面部表示,并将其嵌入到高斯变形场中。通过这种方式,模型可以从单目视频中提取面部特征,并根据文本指令生成具有特定风格的卡通头像。同时,利用高斯变形场可以实现对头像的实时驱动和控制。此外,为了提升图像质量,模型还引入了自适应像素平移神经网络和patch-aware对比学习。

技术框架:TextToon的整体框架包含以下几个主要模块:1) 面部特征提取模块:从单目视频中提取面部特征,例如面部关键点和表情参数。2) 条件嵌入Tri-plane模块:根据文本指令和面部特征,生成风格化的Tri-plane表示。3) 高斯变形场模块:将Tri-plane表示嵌入到高斯变形场中,实现对头像的实时驱动和控制。4) 自适应像素平移神经网络:对生成的图像进行像素级别的调整,提升图像质量。5) Patch-aware对比学习模块:通过对比学习,增强模型对不同风格的区分能力。

关键创新:TextToon的关键创新在于以下几个方面:1) 单目视频输入:与现有方法相比,TextToon只需要单目视频作为输入,大大降低了数据采集的难度。2) 条件嵌入Tri-plane:通过条件嵌入Tri-plane,模型可以根据文本指令生成具有特定风格的卡通头像。3) 高斯变形场:利用高斯变形场,模型可以实现对头像的实时驱动和控制。4) 自适应像素平移神经网络和Patch-aware对比学习:通过这两个模块,模型可以生成更高质量的卡通头像。

关键设计:在TextToon中,一些关键的设计包括:1) Tri-plane的结构:Tri-plane由三个正交的平面组成,每个平面都包含一个特征向量。这种结构可以有效地表示三维空间中的信息。2) 高斯变形场的参数:高斯变形场的参数包括高斯分布的均值和方差。这些参数决定了头像的形状和姿态。3) 自适应像素平移神经网络的结构:该网络采用U-Net结构,可以对生成的图像进行像素级别的调整。4) Patch-aware对比学习的损失函数:该损失函数通过对比不同风格的图像块,增强模型对不同风格的区分能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TextToon在卡通头像生成质量和实时性方面均优于现有方法。在GPU上,TextToon可以达到48 FPS的运行速度,在移动设备上也可以达到15-18 FPS。主观评价实验也表明,用户更喜欢TextToon生成的卡通头像,认为其更具表现力和个性化。

🎯 应用场景

TextToon具有广泛的应用前景,例如:1) 虚拟形象定制:用户可以根据自己的喜好,通过文本指令定制个性化的卡通头像。2) 实时视频会议:在视频会议中,用户可以使用卡通头像代替真实的面部图像,保护隐私。3) 游戏和娱乐:可以将卡通头像应用到游戏中,增加游戏的趣味性。4) 教育和培训:可以使用卡通头像进行教学和培训,提高学习效率。未来,该技术有望在元宇宙等领域发挥重要作用。

📄 摘要(原文)

We propose TextToon, a method to generate a drivable toonified avatar. Given a short monocular video sequence and a written instruction about the avatar style, our model can generate a high-fidelity toonified avatar that can be driven in real-time by another video with arbitrary identities. Existing related works heavily rely on multi-view modeling to recover geometry via texture embeddings, presented in a static manner, leading to control limitations. The multi-view video input also makes it difficult to deploy these models in real-world applications. To address these issues, we adopt a conditional embedding Tri-plane to learn realistic and stylized facial representations in a Gaussian deformation field. Additionally, we expand the stylization capabilities of 3D Gaussian Splatting by introducing an adaptive pixel-translation neural network and leveraging patch-aware contrastive learning to achieve high-quality images. To push our work into consumer applications, we develop a real-time system that can operate at 48 FPS on a GPU machine and 15-18 FPS on a mobile machine. Extensive experiments demonstrate the efficacy of our approach in generating textual avatars over existing methods in terms of quality and real-time animation. Please refer to our project page for more details: https://songluchuan.github.io/TextToon/.