TextToon: Real-Time Text Toonify Head Avatar from Single Video

作者: Luchuan Song, Lele Chen, Celong Liu, Pinxin Liu, Chenliang Xu

分类: cs.CV, cs.GR

发布日期: 2024-09-23

备注: Project Page: https://songluchuan.github.io/TextToon/

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

TextToon：提出一种基于单目视频的实时文本驱动卡通头像生成方法

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 卡通头像生成 单目视频 实时驱动 风格化 Tri-plane 高斯变形场 对比学习

📋 核心要点

现有卡通头像生成方法依赖多视角建模，难以部署且控制受限，无法满足实时性需求。
TextToon利用条件嵌入Tri-plane学习风格化面部表示，结合高斯变形场实现高质量生成。
该方法在GPU上达到48FPS，移动端15-18FPS，实验证明其在质量和实时性上优于现有方法。

📝 摘要（中文）

本文提出了一种名为TextToon的方法，用于生成可驱动的卡通化头像。给定一段短的单目视频序列以及关于头像风格的文本指令，我们的模型能够生成高保真度的卡通化头像，该头像可以由另一个具有任意身份的视频实时驱动。现有的相关工作严重依赖于多视角建模，通过纹理嵌入来恢复几何结构，并以静态方式呈现，导致控制上的局限性。多视角视频输入也使得这些模型难以部署在实际应用中。为了解决这些问题，我们采用了一种条件嵌入Tri-plane来学习高真实感和风格化的面部表示，并将其置于高斯变形场中。此外，我们通过引入自适应像素平移神经网络并利用patch-aware对比学习来扩展3D高斯溅射的风格化能力，从而实现高质量的图像生成。为了将我们的工作推向消费者应用，我们开发了一个实时系统，该系统可以在GPU机器上以48 FPS的速度运行，在移动机器上以15-18 FPS的速度运行。大量的实验表明，在质量和实时动画方面，我们的方法在生成文本头像方面优于现有方法。更多细节请参考我们的项目页面：https://songluchuan.github.io/TextToon/。

🔬 方法详解

问题定义：现有卡通头像生成方法主要依赖多视角视频输入，通过纹理嵌入恢复几何信息，生成静态的卡通头像。这种方法不仅需要复杂的设置，而且难以实时驱动和控制，无法满足实际应用的需求。此外，多视角建模也限制了其在移动设备等资源受限平台上的部署。因此，如何仅使用单目视频和文本指令，生成高质量、可实时驱动的卡通头像，是本文要解决的核心问题。

核心思路：TextToon的核心思路是利用条件嵌入Tri-plane学习风格化的面部表示，并将其嵌入到高斯变形场中。通过这种方式，模型可以从单目视频中提取面部特征，并根据文本指令生成具有特定风格的卡通头像。同时，利用高斯变形场可以实现对头像的实时驱动和控制。此外，为了提升图像质量，模型还引入了自适应像素平移神经网络和patch-aware对比学习。

技术框架：TextToon的整体框架包含以下几个主要模块：1) 面部特征提取模块：从单目视频中提取面部特征，例如面部关键点和表情参数。2) 条件嵌入Tri-plane模块：根据文本指令和面部特征，生成风格化的Tri-plane表示。3) 高斯变形场模块：将Tri-plane表示嵌入到高斯变形场中，实现对头像的实时驱动和控制。4) 自适应像素平移神经网络：对生成的图像进行像素级别的调整，提升图像质量。5) Patch-aware对比学习模块：通过对比学习，增强模型对不同风格的区分能力。

关键创新：TextToon的关键创新在于以下几个方面：1) 单目视频输入：与现有方法相比，TextToon只需要单目视频作为输入，大大降低了数据采集的难度。2) 条件嵌入Tri-plane：通过条件嵌入Tri-plane，模型可以根据文本指令生成具有特定风格的卡通头像。3) 高斯变形场：利用高斯变形场，模型可以实现对头像的实时驱动和控制。4) 自适应像素平移神经网络和Patch-aware对比学习：通过这两个模块，模型可以生成更高质量的卡通头像。

关键设计：在TextToon中，一些关键的设计包括：1) Tri-plane的结构：Tri-plane由三个正交的平面组成，每个平面都包含一个特征向量。这种结构可以有效地表示三维空间中的信息。2) 高斯变形场的参数：高斯变形场的参数包括高斯分布的均值和方差。这些参数决定了头像的形状和姿态。3) 自适应像素平移神经网络的结构：该网络采用U-Net结构，可以对生成的图像进行像素级别的调整。4) Patch-aware对比学习的损失函数：该损失函数通过对比不同风格的图像块，增强模型对不同风格的区分能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，TextToon在卡通头像生成质量和实时性方面均优于现有方法。在GPU上，TextToon可以达到48 FPS的运行速度，在移动设备上也可以达到15-18 FPS。主观评价实验也表明，用户更喜欢TextToon生成的卡通头像，认为其更具表现力和个性化。

🎯 应用场景

TextToon具有广泛的应用前景，例如：1) 虚拟形象定制：用户可以根据自己的喜好，通过文本指令定制个性化的卡通头像。2) 实时视频会议：在视频会议中，用户可以使用卡通头像代替真实的面部图像，保护隐私。3) 游戏和娱乐：可以将卡通头像应用到游戏中，增加游戏的趣味性。4) 教育和培训：可以使用卡通头像进行教学和培训，提高学习效率。未来，该技术有望在元宇宙等领域发挥重要作用。

📄 摘要（原文）

We propose TextToon, a method to generate a drivable toonified avatar. Given a short monocular video sequence and a written instruction about the avatar style, our model can generate a high-fidelity toonified avatar that can be driven in real-time by another video with arbitrary identities. Existing related works heavily rely on multi-view modeling to recover geometry via texture embeddings, presented in a static manner, leading to control limitations. The multi-view video input also makes it difficult to deploy these models in real-world applications. To address these issues, we adopt a conditional embedding Tri-plane to learn realistic and stylized facial representations in a Gaussian deformation field. Additionally, we expand the stylization capabilities of 3D Gaussian Splatting by introducing an adaptive pixel-translation neural network and leveraging patch-aware contrastive learning to achieve high-quality images. To push our work into consumer applications, we develop a real-time system that can operate at 48 FPS on a GPU machine and 15-18 FPS on a mobile machine. Extensive experiments demonstrate the efficacy of our approach in generating textual avatars over existing methods in terms of quality and real-time animation. Please refer to our project page for more details: https://songluchuan.github.io/TextToon/.

TextToon: Real-Time Text Toonify Head Avatar from Single Video

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理