InsTaG: Learning Personalized 3D Talking Head from Few-Second Video

作者: Jiahe Li, Jiawei Zhang, Xiao Bai, Jin Zheng, Jun Zhou, Lin Gu

分类: cs.CV

发布日期: 2025-02-27

备注: Accepted at CVPR 2025. Project page: https://fictionarry.github.io/InsTaG/

💡 一句话要点

InsTaG：提出一种基于少量视频的个性化3D说话头快速学习框架

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 3D说话头 个性化建模 少量样本学习 运动先验 3D高斯溅射

📋 核心要点

现有基于辐射场的说话头方法需要大量训练数据和时间，难以快速适应新身份。
InsTaG利用身份无关的预训练和运动对齐的适应策略，从少量数据中学习个性化说话头。
实验表明，InsTaG在各种数据场景下均能高效渲染高质量的个性化说话头。

📝 摘要（中文）

本文提出了一种名为InsTaG的3D说话头合成框架，该框架能够从少量训练数据中快速学习逼真的个性化3D说话头。InsTaG建立在轻量级的3D高斯溅射（3DGS）特定人物合成器之上，并结合了通用的运动先验，实现了高质量和快速的适应，同时保持了高度的个性化和效率。作为准备工作，我们首先提出了一种与身份无关的预训练策略，该策略能够预训练特定人物模型，并鼓励从长视频数据集中收集通用的运动先验。为了充分利用通用的运动先验来学习一个未见过的新身份，我们提出了一种运动对齐的适应策略，以自适应地将目标头部与预训练的场对齐，并在少量训练数据下约束一个鲁棒的动态头部结构。实验表明，我们的方法在各种数据场景下都表现出卓越的性能和效率，能够渲染高质量的个性化说话头。

🔬 方法详解

问题定义：现有基于辐射场的个性化3D说话头合成方法，在新身份的学习上需要大量的训练数据和较长的训练时间。这限制了其在实际应用中的灵活性和效率，尤其是在数据稀缺的场景下。因此，如何利用少量数据快速生成高质量的个性化3D说话头是一个关键问题。

核心思路：InsTaG的核心思路是利用通用的运动先验知识，结合轻量级的3DGS特定人物合成器，实现快速的个性化适应。通过预训练一个与身份无关的模型，学习通用的头部运动规律，然后在少量目标数据上进行微调，从而快速生成特定人物的说话头。这种方法借鉴了迁移学习的思想，将通用的运动知识迁移到新的身份上，从而减少了对目标数据的依赖。

技术框架：InsTaG框架主要包含两个阶段：身份无关的预训练阶段和运动对齐的适应阶段。在预训练阶段，利用大量的视频数据训练一个通用的头部运动模型，该模型不依赖于特定的人物身份。在适应阶段，利用少量目标人物的视频数据，通过运动对齐策略，将目标头部与预训练的场对齐，并对模型进行微调，从而生成特定人物的说话头。

关键创新：InsTaG的关键创新在于提出了身份无关的预训练策略和运动对齐的适应策略。身份无关的预训练策略使得模型能够学习到通用的头部运动规律，从而减少了对目标数据的依赖。运动对齐的适应策略能够自适应地将目标头部与预训练的场对齐，从而保证了生成说话头的质量。

关键设计：在身份无关的预训练阶段，使用了大量的视频数据，并设计了一种损失函数，鼓励模型学习通用的头部运动规律。在运动对齐的适应阶段，设计了一种运动对齐模块，该模块能够自适应地将目标头部与预训练的场对齐。此外，还使用了一种正则化项，用于约束动态头部结构的鲁棒性。

🖼️ 关键图片

📊 实验亮点

InsTaG在少量数据场景下表现出卓越的性能和效率。实验结果表明，该方法能够仅使用几秒钟的视频数据，快速生成高质量的个性化3D说话头。与现有方法相比，InsTaG在生成质量和训练速度上均有显著提升，尤其是在数据稀缺的情况下。

🎯 应用场景

InsTaG技术可应用于虚拟现实、增强现实、视频会议、数字人等领域。它能够快速生成个性化的3D说话头，为用户提供更加逼真和个性化的交互体验。该技术在教育、娱乐、社交等领域具有广泛的应用前景，并有望推动相关产业的发展。

📄 摘要（原文）

Despite exhibiting impressive performance in synthesizing lifelike personalized 3D talking heads, prevailing methods based on radiance fields suffer from high demands for training data and time for each new identity. This paper introduces InsTaG, a 3D talking head synthesis framework that allows a fast learning of realistic personalized 3D talking head from few training data. Built upon a lightweight 3DGS person-specific synthesizer with universal motion priors, InsTaG achieves high-quality and fast adaptation while preserving high-level personalization and efficiency. As preparation, we first propose an Identity-Free Pre-training strategy that enables the pre-training of the person-specific model and encourages the collection of universal motion priors from long-video data corpus. To fully exploit the universal motion priors to learn an unseen new identity, we then present a Motion-Aligned Adaptation strategy to adaptively align the target head to the pre-trained field, and constrain a robust dynamic head structure under few training data. Experiments demonstrate our outstanding performance and efficiency under various data scenarios to render high-quality personalized talking heads.

InsTaG: Learning Personalized 3D Talking Head from Few-Second Video

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理