Diffusion-Based Makeup Transfer with Facial Region-Aware Makeup Features

📄 arXiv: 2603.20012v1 📥 PDF

作者: Zheng Gao, Debin Meng, Yunqi Miao, Zhensong Zhang, Songcen Xu, Ioannis Patras, Jifei Song

分类: cs.CV

发布日期: 2026-03-20

备注: Accepted by CVPR'26


💡 一句话要点

提出面部区域感知妆容特征的扩散模型,实现更精细可控的妆容迁移

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 妆容迁移 扩散模型 CLIP微调 面部区域感知 区域可控性

📋 核心要点

  1. 现有基于扩散模型的妆容迁移方法依赖通用预训练模型,难以准确捕捉特定妆容风格,且缺乏对面部区域的精细控制。
  2. 论文提出面部区域感知妆容特征(FRAM),通过微调CLIP模型和可学习tokens提取区域妆容特征,实现更精准的妆容迁移。
  3. 实验结果表明,该方法在区域可控性和妆容迁移性能上均优于现有方法,能够实现更精细化的妆容编辑效果。

📝 摘要(中文)

现有的基于扩散模型的妆容迁移方法通常使用预训练的基础模型(如CLIP)编码的妆容信息作为条件,以保留参考图像的妆容风格。然而,这些方法存在两个主要局限性:(1)为通用任务预训练的基础模型难以捕捉妆容风格;(2)参考图像的妆容特征作为一个整体注入到扩散去噪模型中进行全局妆容迁移,忽略了面部区域感知的妆容特征(即眼睛、嘴巴等),限制了区域特定妆容迁移的区域可控性。为了解决这些问题,本文提出了面部区域感知妆容特征(FRAM),它包含两个阶段:(1)妆容CLIP微调;(2)身份和面部区域感知妆容注入。对于妆容CLIP微调,不同于以往使用现成的CLIP,我们使用GPT-o3和文本驱动的图像编辑模型合成带注释的妆容风格数据,然后使用这些数据通过自监督和图像-文本对比学习训练妆容CLIP编码器。对于身份和面部区域感知妆容注入,我们从阶段1中编辑的图像构建妆前妆后图像对,然后使用它们来学习将源图像的身份和参考图像的妆容注入到扩散去噪模型中进行妆容迁移。具体来说,我们使用可学习的tokens来查询妆容CLIP编码器,以提取面部区域感知的妆容特征进行妆容注入,并通过注意力损失进行学习,以实现区域控制。至于身份注入,我们使用ControlNet Union同时编码源图像及其3D网格。实验结果验证了我们区域可控性和妆容迁移性能的优越性。

🔬 方法详解

问题定义:现有基于扩散模型的妆容迁移方法,依赖于通用预训练模型(如CLIP)提取妆容特征,但这些模型并非专门为妆容设计,难以准确捕捉妆容的细微差别。此外,现有方法通常将整个参考图像的妆容特征注入到扩散模型中,忽略了面部不同区域(如眼睛、嘴唇)的妆容差异,导致无法实现区域可控的妆容迁移。

核心思路:论文的核心思路是构建一个专门用于妆容特征提取的编码器,并结合面部区域信息,实现更精细的妆容迁移控制。通过微调CLIP模型,使其更擅长捕捉妆容风格,并利用可学习的tokens提取不同面部区域的妆容特征,从而实现区域可控的妆容迁移。

技术框架:该方法主要包含两个阶段:(1)妆容CLIP微调:利用GPT-o3和文本驱动的图像编辑模型生成带注释的妆容数据,然后使用这些数据微调CLIP模型,使其能够更好地捕捉妆容风格。(2)身份和面部区域感知妆容注入:利用第一阶段生成的妆前妆后图像对,学习将源图像的身份信息和参考图像的妆容信息注入到扩散去噪模型中。使用ControlNet Union编码源图像及其3D网格,用于身份注入。

关键创新:该方法最重要的创新点在于提出了面部区域感知妆容特征(FRAM)。通过微调CLIP模型,使其更擅长捕捉妆容风格,并利用可学习的tokens提取不同面部区域的妆容特征。这种方法能够实现区域可控的妆容迁移,解决了现有方法无法精细控制妆容区域的问题。

关键设计:在妆容CLIP微调阶段,使用了自监督和图像-文本对比学习方法。在面部区域感知妆容注入阶段,使用了可学习的tokens来查询妆容CLIP编码器,并使用注意力损失来学习区域控制。ControlNet Union用于编码源图像及其3D网格,以保留身份信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了所提出方法的有效性。实验结果表明,该方法在区域可控性和妆容迁移性能上均优于现有方法。具体而言,该方法能够实现更精细的妆容区域控制,例如可以单独调整眼睛或嘴唇的妆容风格。同时,该方法能够更好地保留源图像的身份信息,避免妆容迁移导致的面部变形。

🎯 应用场景

该研究成果可应用于虚拟试妆、图像编辑、视频美颜等领域。用户可以通过该技术将参考图像的妆容风格迁移到自己的照片或视频中,实现个性化的妆容定制。该技术还可以应用于游戏、社交媒体等领域,为用户提供更丰富的虚拟形象定制选项。

📄 摘要(原文)

Current diffusion-based makeup transfer methods commonly use the makeup information encoded by off-the-shelf foundation models (e.g., CLIP) as condition to preserve the makeup style of reference image in the generation. Although effective, these works mainly have two limitations: (1) foundation models pre-trained for generic tasks struggle to capture makeup styles; (2) the makeup features of reference image are injected to the diffusion denoising model as a whole for global makeup transfer, overlooking the facial region-aware makeup features (i.e., eyes, mouth, etc) and limiting the regional controllability for region-specific makeup transfer. To address these, in this work, we propose Facial Region-Aware Makeup features (FRAM), which has two stages: (1) makeup CLIP fine-tuning; (2) identity and facial region-aware makeup injection. For makeup CLIP fine-tuning, unlike prior works using off-the-shelf CLIP, we synthesize annotated makeup style data using GPT-o3 and text-driven image editing model, and then use the data to train a makeup CLIP encoder through self-supervised and image-text contrastive learning. For identity and facial region-aware makeup injection, we construct before-and-after makeup image pairs from the edited images in stage 1 and then use them to learn to inject identity of source image and makeup of reference image to the diffusion denoising model for makeup transfer. Specifically, we use learnable tokens to query the makeup CLIP encoder to extract facial region-aware makeup features for makeup injection, which is learned via an attention loss to enable regional control. As for identity injection, we use a ControlNet Union to encode source image and its 3D mesh simultaneously. The experimental results verify the superiority of our regional controllability and our makeup transfer performance.