GaussianSwap: Animatable Video Face Swapping with 3D Gaussian Splatting
作者: Xuan Cheng, Jiahao Rao, Chengyang Li, Wenhao Wang, Weilin Chen, Lvqing Yang
分类: cs.CV
发布日期: 2026-01-09
💡 一句话要点
GaussianSwap:基于3D高斯溅射的可动画视频人脸替换框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 人脸替换 3D高斯溅射 FLAME模型 身份保持 视频生成
📋 核心要点
- 现有视频人脸替换方法基于像素,缺乏动画和交互能力,限制了应用场景。
- GaussianSwap通过3D高斯溅射构建可动画的人脸头像,实现身份迁移和动态面部控制。
- 实验表明,GaussianSwap在身份保持、视觉效果和时间一致性方面优于现有方法,并支持交互应用。
📝 摘要(中文)
本文提出了一种新颖的视频人脸替换框架GaussianSwap,该框架从目标视频构建基于3D高斯溅射的人脸头像,同时将源图像的身份信息迁移到该头像。传统的视频替换框架仅限于生成基于像素格式的面部表示,导致替换后的面部仅作为一组非结构化的像素存在,缺乏动画或交互式操作的能力。我们的工作将范式从传统的基于像素的视频生成转变为创建具有替换面部的高保真头像。该框架首先预处理目标视频,提取FLAME参数、相机姿态和分割掩码,然后将3D高斯溅射绑定到跨帧的FLAME模型,从而实现动态面部控制。为了确保身份保持,我们提出了一种由三个最先进的人脸识别模型构建的复合身份嵌入,用于头像微调。最后,我们将替换面部后的头像渲染到背景帧上,以获得人脸替换后的视频。实验结果表明,GaussianSwap实现了卓越的身份保持、视觉清晰度和时间一致性,同时实现了以前无法实现的交互式应用。
🔬 方法详解
问题定义:现有视频人脸替换方法主要基于像素表示,缺乏结构化信息,难以进行动画控制和交互式操作。生成的替换面部质量受限,时间一致性较差,难以满足高质量视频生成的需求。
核心思路:GaussianSwap的核心思路是将人脸替换问题转化为3D人脸头像的构建和动画问题。通过3D高斯溅射技术,将人脸表示为一组带有属性的3D高斯分布,从而实现高质量、可控的人脸渲染。同时,利用FLAME模型进行人脸参数化,实现动态面部控制。
技术框架:GaussianSwap框架主要包含以下几个阶段:1) 目标视频预处理:提取FLAME参数、相机姿态和分割掩码。2) 3D高斯溅射绑定:将3D高斯溅射绑定到跨帧的FLAME模型,实现动态面部控制。3) 身份嵌入:利用复合身份嵌入,从源图像提取身份信息。4) 头像微调:使用身份嵌入微调3D高斯溅射,实现身份迁移。5) 渲染:将替换面部后的头像渲染到背景帧上,生成最终的替换视频。
关键创新:GaussianSwap的关键创新在于:1) 将3D高斯溅射技术引入到视频人脸替换领域,实现了高质量、可控的人脸渲染。2) 提出了复合身份嵌入,有效融合了多个先进人脸识别模型的特征,提高了身份保持能力。3) 构建了可动画的3D人脸头像,为交互式应用提供了基础。与现有基于像素的方法相比,GaussianSwap具有更高的视觉质量和更好的可控性。
关键设计:复合身份嵌入由三个最先进的人脸识别模型(具体模型名称未知)的特征向量拼接而成。损失函数的设计旨在平衡身份保持、视觉质量和时间一致性。具体参数设置和网络结构细节在论文中未详细描述,属于未知信息。
📊 实验亮点
实验结果表明,GaussianSwap在身份保持、视觉清晰度和时间一致性方面优于现有方法。具体性能数据和对比基线在摘要中未明确给出,属于未知信息。但论文强调GaussianSwap实现了以前无法实现的交互式应用,例如动态调整面部表情和姿态,这体现了其显著的优势。
🎯 应用场景
GaussianSwap具有广泛的应用前景,包括虚拟形象定制、视频会议美化、电影特效制作、游戏角色设计等。该技术可以用于创建高度逼真、可定制的虚拟人脸,为用户提供更加个性化和沉浸式的体验。此外,GaussianSwap还可以应用于身份保护和隐私增强等领域,例如在视频通话中替换人脸,防止身份泄露。
📄 摘要(原文)
We introduce GaussianSwap, a novel video face swapping framework that constructs a 3D Gaussian Splatting based face avatar from a target video while transferring identity from a source image to the avatar. Conventional video swapping frameworks are limited to generating facial representations in pixel-based formats. The resulting swapped faces exist merely as a set of unstructured pixels without any capacity for animation or interactive manipulation. Our work introduces a paradigm shift from conventional pixel-based video generation to the creation of high-fidelity avatar with swapped faces. The framework first preprocesses target video to extract FLAME parameters, camera poses and segmentation masks, and then rigs 3D Gaussian splats to the FLAME model across frames, enabling dynamic facial control. To ensure identity preserving, we propose an compound identity embedding constructed from three state-of-the-art face recognition models for avatar finetuning. Finally, we render the face-swapped avatar on the background frames to obtain the face-swapped video. Experimental results demonstrate that GaussianSwap achieves superior identity preservation, visual clarity and temporal consistency, while enabling previously unattainable interactive applications.