VFace: A Training-Free Approach for Diffusion-Based Video Face Swapping

作者: Sanoojan Baliah, Yohan Abeysinghe, Rusiru Thushara, Khan Muhammad, Abhinav Dhall, Karthik Nandakumar, Muhammad Haris Khan

分类: cs.CV

发布日期: 2026-02-08 (更新: 2026-02-19)

备注: Accepted at WACV 2026

🔗 代码/项目: GITHUB

💡 一句话要点

VFace：一种基于扩散模型的免训练视频人脸替换方法

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation)

关键词: 视频人脸替换 扩散模型 免训练 时间一致性 频率谱注意力 目标结构引导 光流引导

📋 核心要点

现有视频人脸替换方法通常需要大量训练数据或针对特定视频进行微调，泛化能力和效率受限。
VFace通过频率谱注意力插值、目标结构引导和流引导注意力时间平滑，实现免训练的高质量视频人脸替换。
实验结果表明，VFace显著提升了视频人脸替换的时间一致性和视觉保真度，无需额外训练或微调。

📝 摘要（中文）

本文提出了一种免训练、即插即用的方法VFace，用于高质量的视频人脸替换。它可以无缝集成到基于扩散模型的图像人脸替换方法中。首先，我们引入了一种频率谱注意力插值技术，以促进生成并保持关键的身份特征。其次，我们通过即插即用的注意力注入实现目标结构引导，从而更好地将目标帧的结构特征与生成对齐。第三，我们提出了一种流引导的注意力时间平滑机制，该机制在不修改底层扩散模型的情况下，增强时空一致性，从而减少逐帧生成中通常遇到的时间不一致性。我们的方法不需要额外的训练或特定于视频的微调。大量实验表明，我们的方法显著提高了时间一致性和视觉保真度，为基于视频的人脸替换提供了一种实用且模块化的解决方案。代码已开源。

🔬 方法详解

问题定义：视频人脸替换旨在将源视频中的人脸替换为目标人脸，同时保持视频的时空一致性和视觉真实感。现有方法通常依赖于大量的训练数据或针对特定视频的微调，这限制了它们的泛化能力和效率。此外，逐帧处理容易导致时间上的不一致性，产生闪烁等伪影。

核心思路：VFace的核心思路是利用预训练的图像扩散模型，并通过一系列即插即用的模块来增强其在视频人脸替换中的性能。该方法旨在通过频率谱注意力插值保持身份特征，通过目标结构引导对齐面部结构，并通过流引导注意力时间平滑增强时间一致性。

技术框架：VFace的整体框架包括以下几个主要阶段：1) 使用图像扩散模型进行初始的人脸替换；2) 使用频率谱注意力插值模块来保持关键的身份特征；3) 使用目标结构引导模块来对齐目标帧的面部结构；4) 使用流引导注意力时间平滑模块来增强时间一致性。这些模块都是即插即用的，可以灵活地集成到现有的基于扩散模型的图像人脸替换方法中。

关键创新：VFace的关键创新在于其免训练和即插即用的特性。它不需要额外的训练数据或针对特定视频的微调，就可以实现高质量的视频人脸替换。此外，该方法通过频率谱注意力插值、目标结构引导和流引导注意力时间平滑等模块，有效地解决了视频人脸替换中的身份保持、结构对齐和时间一致性等问题。

关键设计：频率谱注意力插值模块通过在频率域上对注意力图进行插值，来保持关键的身份特征。目标结构引导模块通过将目标帧的注意力图注入到生成过程中，来对齐面部结构。流引导注意力时间平滑模块利用光流信息来平滑相邻帧之间的注意力图，从而增强时间一致性。具体参数设置和网络结构细节在论文中未详细说明，属于未知信息。

📊 实验亮点

VFace在视频人脸替换任务中表现出色，无需训练或微调即可显著提高时间一致性和视觉保真度。具体性能数据和对比基线在摘要中未提供，属于未知信息。但论文强调，该方法为视频人脸替换提供了一种实用且模块化的解决方案。

🎯 应用场景

VFace具有广泛的应用前景，包括电影制作、视频编辑、虚拟现实、社交媒体等领域。它可以用于创建逼真的人脸替换效果，例如将演员的面部替换为其他人的面部，或者在虚拟现实环境中创建个性化的角色。该技术还可以用于保护个人隐私，例如在视频中替换敏感人物的面部。未来，VFace有望成为视频内容创作和编辑的重要工具。

📄 摘要（原文）

We present a training-free, plug-and-play method, namely VFace, for high-quality face swapping in videos. It can be seamlessly integrated with image-based face swapping approaches built on diffusion models. First, we introduce a Frequency Spectrum Attention Interpolation technique to facilitate generation and intact key identity characteristics. Second, we achieve Target Structure Guidance via plug-and-play attention injection to better align the structural features from the target frame to the generation. Third, we present a Flow-Guided Attention Temporal Smoothening mechanism that enforces spatiotemporal coherence without modifying the underlying diffusion model to reduce temporal inconsistencies typically encountered in frame-wise generation. Our method requires no additional training or video-specific fine-tuning. Extensive experiments show that our method significantly enhances temporal consistency and visual fidelity, offering a practical and modular solution for video-based face swapping. Our code is available at https://github.com/Sanoojan/VFace.

VFace: A Training-Free Approach for Diffusion-Based Video Face Swapping

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理