FastFace: Tuning Identity Preservation in Distilled Diffusion via Guidance and Attention

📄 arXiv: 2505.21144v2 📥 PDF

作者: Sergey Karpukhin, Vadim Titov, Andrey Kuznetsov, Aibek Alanov

分类: cs.CV

发布日期: 2025-05-27 (更新: 2025-05-28)

备注: code available at https://github.com/ControlGenAI/FastFace


💡 一句话要点

FastFace:通过引导和注意力机制调整蒸馏扩散模型中的身份保持

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)

关键词: 扩散模型 个性化生成 身份保持 蒸馏 无分类器引导 注意力机制 免训练适配 图像生成

📋 核心要点

  1. 现有的身份保持适配器通常与基础扩散模型联合训练,导致推理速度慢,限制了其应用。
  2. FastFace框架通过重新设计无分类器引导和注意力操作机制,实现了预训练身份适配器到蒸馏扩散模型的免训练适配。
  3. 该论文还开发了一个解耦的公共评估协议,用于更全面地评估身份保持适配器的性能。

📝 摘要(中文)

近年来,涌现了大量用于扩散模型个性化生成的身份保持适配器。它们的主要缺点是通常与基础扩散模型联合训练,导致多步推理速度缓慢。本文旨在解决预训练身份适配器到通过蒸馏加速的扩散模型的免训练适配问题。通过精心重新设计用于少步风格生成的无分类器引导,以及解耦块中的注意力操作机制以提高身份相似性和保真度,我们提出了通用的FastFace框架。此外,我们还开发了一个用于身份保持适配器的解耦公共评估协议。

🔬 方法详解

问题定义:论文旨在解决扩散模型个性化生成中,现有身份保持适配器训练和推理效率低下的问题。现有方法通常需要与基础扩散模型联合训练,导致推理速度慢,难以满足实时应用的需求。此外,缺乏统一的评估标准也阻碍了该领域的发展。

核心思路:FastFace的核心思路是通过免训练的方式,将预训练的身份适配器迁移到通过蒸馏加速的扩散模型中。通过精心设计的无分类器引导和注意力操作机制,在保证身份信息的同时,提高生成速度。

技术框架:FastFace框架主要包含两个关键模块:一是重新设计的无分类器引导,用于少步风格生成;二是解耦块中的注意力操作机制,用于提高身份相似性和保真度。整体流程是,首先利用预训练的身份适配器提取身份特征,然后通过改进的无分类器引导和注意力机制,将身份信息融入到蒸馏扩散模型的生成过程中。

关键创新:FastFace的关键创新在于其免训练的适配方式,以及针对蒸馏扩散模型特点设计的引导和注意力机制。与现有方法相比,FastFace无需重新训练适配器,大大提高了效率。此外,解耦的公共评估协议也为该领域的研究提供了新的评估标准。

关键设计:论文的关键设计包括:(1) 重新设计的无分类器引导,通过调整引导强度,平衡生成质量和身份保持;(2) 解耦块中的注意力操作机制,通过调整注意力权重,增强身份相关特征的表达;(3) 开发了一个解耦的公共评估协议,包含身份相似性、内容保真度等多个指标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的FastFace框架在身份保持和生成速度方面均取得了显著提升。实验结果表明,FastFace能够在保证身份相似性的前提下,显著提高生成速度,优于现有的联合训练方法。此外,该论文提出的解耦公共评估协议也为身份保持适配器的评估提供了更全面的标准。

🎯 应用场景

FastFace框架可应用于各种需要快速个性化图像生成的场景,例如虚拟形象定制、游戏角色生成、社交媒体内容创作等。该研究成果有助于推动扩散模型在实际应用中的普及,并为相关领域的研究提供新的思路。

📄 摘要(原文)

In latest years plethora of identity-preserving adapters for a personalized generation with diffusion models have been released. Their main disadvantage is that they are dominantly trained jointly with base diffusion models, which suffer from slow multi-step inference. This work aims to tackle the challenge of training-free adaptation of pretrained ID-adapters to diffusion models accelerated via distillation - through careful re-design of classifier-free guidance for few-step stylistic generation and attention manipulation mechanisms in decoupled blocks to improve identity similarity and fidelity, we propose universal FastFace framework. Additionally, we develop a disentangled public evaluation protocol for id-preserving adapters.