GSwap: Realistic Head Swapping with Dynamic Neural Gaussian Field
作者: Jingtao Zhou, Xuan Gao, Dongyu Liu, Junhui Hou, Yudong Guo, Juyong Zhang
分类: cs.CV
发布日期: 2026-03-24
备注: Accepted to TVCG, Project page: https://ustc3dv.github.io/GSwap/
💡 一句话要点
GSwap:利用动态神经高斯场实现逼真头部替换
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 头部替换 神经高斯场 SMPL-X 域适应 神经渲染
📋 核心要点
- 现有头部替换方法在3D一致性、表情自然度和全身头部替换方面存在局限性,容易产生伪影和错位。
- GSwap通过引入嵌入在SMPL-X表面的动态神经高斯场,将2D人像视频提升为3D,从而实现高保真和3D一致的头部替换。
- GSwap采用域适应和神经重渲染策略,有效提升了视觉质量、时间连贯性、身份保持和3D一致性。
📝 摘要(中文)
GSwap是一种新颖的、一致且逼真的视频头部替换系统,它利用动态神经高斯人像先验,显著提升了人脸和头部替换的现有技术水平。与主要依赖于2D生成模型或3D形变人脸模型(3DMM)的先前方法不同,我们的方法克服了它们固有的局限性,包括较差的3D一致性、不自然的表情和受限的合成质量。此外,由于缺乏整体头部建模和无效的背景融合,现有技术在全身头部替换任务中表现不佳,经常导致可见的伪影和错位。为了解决这些挑战,GSwap引入了一种嵌入在全身SMPL-X表面内的内在3D高斯特征场,有效地将2D人像视频提升为动态神经高斯场。这种创新确保了高保真、3D一致的人像渲染,同时保留了自然的头部-躯干关系和无缝的运动动态。为了方便训练,我们仅使用少量参考图像,将预训练的2D人像生成模型调整到源头部域,从而实现高效的域适应。此外,我们提出了一种神经重渲染策略,将合成的前景与原始背景和谐地融合在一起,从而消除融合伪影并增强真实感。大量实验表明,GSwap在视觉质量、时间连贯性、身份保持和3D一致性等多个方面超越了现有方法。
🔬 方法详解
问题定义:现有头部替换方法主要依赖2D生成模型或3DMM,在3D一致性、表情自然度以及全身头部替换方面存在不足。具体表现为:3D一致性差,表情不自然,合成质量受限,全身头部替换时易出现伪影和错位。这些问题限制了头部替换技术的应用范围和效果。
核心思路:GSwap的核心思路是将2D人像视频提升到3D空间,利用动态神经高斯场进行建模。通过将3D高斯特征场嵌入到SMPL-X全身模型中,可以更好地捕捉头部的3D结构和运动信息,从而实现更逼真和一致的头部替换。这种方法能够克服传统方法在3D建模方面的局限性。
技术框架:GSwap的整体框架包括以下几个主要模块:1) 动态神经高斯场构建:将2D人像视频转换为嵌入SMPL-X表面的3D高斯特征场。2) 域适应:利用少量参考图像将预训练的2D人像生成模型调整到源头部域。3) 神经重渲染:将合成的前景与原始背景进行融合,消除融合伪影。4) 渲染和合成:将替换后的头部与身体进行渲染和合成,生成最终的视频。
关键创新:GSwap的关键创新在于引入了动态神经高斯场,并将其嵌入到SMPL-X全身模型中。这种方法能够有效地捕捉头部的3D结构和运动信息,从而实现高保真和3D一致的头部替换。与现有方法相比,GSwap能够更好地处理全身头部替换任务,并减少伪影和错位。
关键设计:GSwap的关键设计包括:1) 使用SMPL-X模型作为3D先验,提供全身的结构信息。2) 利用高斯特征场进行头部建模,捕捉细节和运动信息。3) 采用域适应技术,将预训练模型迁移到目标头部域。4) 设计神经重渲染策略,实现前景和背景的无缝融合。具体的损失函数和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GSwap在视觉质量、时间连贯性、身份保持和3D一致性等方面均优于现有方法。通过定量和定性分析,证明了GSwap在头部替换任务中的有效性和优越性。具体性能数据和对比基线在论文中有详细展示,例如在特定指标上相比现有方法提升了XX%。
🎯 应用场景
GSwap技术在电影制作、游戏开发、虚拟现实、社交媒体等领域具有广泛的应用前景。它可以用于创建逼真的数字替身、修改视频内容、生成个性化头像等。该技术能够提升视频内容的质量和真实感,为用户带来更丰富的视觉体验,并有望推动相关产业的发展。
📄 摘要(原文)
We present GSwap, a novel consistent and realistic video head-swapping system empowered by dynamic neural Gaussian portrait priors, which significantly advances the state of the art in face and head replacement. Unlike previous methods that rely primarily on 2D generative models or 3D Morphable Face Models (3DMM), our approach overcomes their inherent limitations, including poor 3D consistency, unnatural facial expressions, and restricted synthesis quality. Moreover, existing techniques struggle with full head-swapping tasks due to insufficient holistic head modeling and ineffective background blending, often resulting in visible artifacts and misalignments. To address these challenges, GSwap introduces an intrinsic 3D Gaussian feature field embedded within a full-body SMPL-X surface, effectively elevating 2D portrait videos into a dynamic neural Gaussian field. This innovation ensures high-fidelity, 3D-consistent portrait rendering while preserving natural head-torso relationships and seamless motion dynamics. To facilitate training, we adapt a pretrained 2D portrait generative model to the source head domain using only a few reference images, enabling efficient domain adaptation. Furthermore, we propose a neural re-rendering strategy that harmoniously integrates the synthesized foreground with the original background, eliminating blending artifacts and enhancing realism. Extensive experiments demonstrate that GSwap surpasses existing methods in multiple aspects, including visual quality, temporal coherence, identity preservation, and 3D consistency.