A2BFR: Attribute-Aware Blind Face Restoration

📄 arXiv: 2603.29423v1 📥 PDF

作者: Chenxin Zhu, Yushun Fang, Lu Liu, Shibo Yin, Xiaohong Liu, Xiaoyun Zhang, Qiang Hu, Guangtao Zhai

分类: cs.CV

发布日期: 2026-03-31


💡 一句话要点

提出A$^2$BFR框架,实现属性可控的高保真盲人脸修复。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 盲人脸修复 扩散模型 属性感知学习 文本引导生成 图像-文本跨模态 Transformer 人脸属性编辑

📋 核心要点

  1. 现有盲人脸修复方法在保真度和可控性之间难以平衡,扩散模型修复效果好但缺乏控制,文本引导编辑可控但修复能力弱。
  2. A$^2$BFR框架结合扩散Transformer和属性感知学习,同时利用图像和文本信息,实现高保真和提示可控的修复。
  3. 实验表明,A$^2$BFR在保真度和属性准确率上均优于现有方法,尤其在严重退化情况下表现突出。

📝 摘要(中文)

盲人脸修复(BFR)旨在从退化的输入图像中恢复高质量的面部图像,但其固有的病态性导致了模糊和不可控的解决方案。最近基于扩散的BFR方法提高了感知质量,但仍然不可控,而文本引导的面部编辑能够进行属性操作,但没有可靠的修复。为了解决这些问题,我们提出了A$^2$BFR,一个属性感知的盲人脸修复框架,它统一了高保真重建与提示可控的生成。A$^2$BFR建立在具有统一图像-文本跨模态注意力的扩散Transformer骨干网络之上,共同调节退化输入和文本提示的去噪轨迹。为了注入语义先验,我们引入了属性感知学习,它使用由属性感知编码器提取的面部属性嵌入来监督去噪潜在空间。为了进一步提高提示的可控性,我们引入了语义双重训练,它利用我们新策划的AttrFace-90K数据集中的成对属性变化来强制属性区分,同时保持保真度。大量的实验表明,A$^2$BFR在恢复保真度和指令遵循方面都取得了最先进的性能,在LPIPS指标上优于基于扩散的BFR基线-0.0467,属性准确率提高+52.58%,同时即使在严重退化下也能实现细粒度的、提示可控的修复。

🔬 方法详解

问题定义:盲人脸修复旨在从低质量图像中恢复高质量人脸,但现有方法难以兼顾修复的保真度和用户对人脸属性的控制。基于扩散模型的方法虽然能生成逼真的人脸,但缺乏对属性的精确控制;而文本引导的图像编辑方法虽然可以修改属性,但修复质量往往不佳。

核心思路:A$^2$BFR的核心在于将高保真修复和属性可控生成统一到一个框架中。通过结合扩散Transformer的强大生成能力和属性感知学习的语义引导,使得模型既能恢复清晰的人脸,又能根据文本提示精确地控制人脸属性。

技术框架:A$^2$BFR基于扩散Transformer架构,包含图像编码器、文本编码器、扩散模型和属性感知编码器。图像编码器提取退化图像的特征,文本编码器提取文本提示的特征,扩散模型负责生成人脸图像,属性感知编码器提取人脸属性嵌入。模型通过统一的图像-文本跨模态注意力机制,将图像特征和文本特征融合,共同调节去噪过程。

关键创新:A$^2$BFR的关键创新在于属性感知学习和语义双重训练。属性感知学习利用属性感知编码器提取的属性嵌入来监督扩散模型的潜在空间,从而注入语义先验。语义双重训练则利用新构建的AttrFace-90K数据集中的成对属性变化,强制模型区分不同的属性,同时保持修复的保真度。

关键设计:AttrFace-90K数据集包含大量具有成对属性变化的人脸图像,用于语义双重训练。属性感知编码器采用预训练的人脸属性识别模型。损失函数包括重建损失、属性损失和对抗损失,用于保证修复的保真度、属性的准确性和生成图像的逼真度。扩散模型采用DDPM架构,并使用Transformer作为去噪网络。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

A$^2$BFR在人脸修复保真度和属性控制方面均取得了显著提升。实验结果表明,A$^2$BFR在LPIPS指标上优于基于扩散的BFR基线-0.0467,属性准确率提高+52.58%。即使在严重退化的情况下,A$^2$BFR也能生成高质量且属性符合文本描述的人脸图像,证明了其优越的性能。

🎯 应用场景

A$^2$BFR可应用于老照片修复、视频监控人脸增强、虚拟形象定制等领域。该技术能够有效提升低质量人脸图像的视觉质量,并允许用户根据需求修改人脸属性,具有广泛的应用前景和社会价值。未来可进一步探索在更复杂场景下的应用,例如跨年龄人脸修复、人脸表情编辑等。

📄 摘要(原文)

Blind face restoration (BFR) aims to recover high-quality facial images from degraded inputs, yet its inherently ill-posed nature leads to ambiguous and uncontrollable solutions. Recent diffusion-based BFR methods improve perceptual quality but remain uncontrollable, whereas text-guided face editing enables attribute manipulation without reliable restoration. To address these issues, we propose A$^2$BFR, an attribute-aware blind face restoration framework that unifies high-fidelity reconstruction with prompt-controllable generation. Built upon a Diffusion Transformer backbone with unified image-text cross-modal attention, A$^2$BFR jointly conditions the denoising trajectory on both degraded inputs and textual prompts. To inject semantic priors, we introduce attribute-aware learning, which supervises denoising latents using facial attribute embeddings extracted by an attribute-aware encoder. To further enhance prompt controllability, we introduce semantic dual-training, which leverages the pairwise attribute variations in our newly curated AttrFace-90K dataset to enforce attribute discrimination while preserving fidelity. Extensive experiments demonstrate that A$^2$BFR achieves state-of-the-art performance in both restoration fidelity and instruction adherence, outperforming diffusion-based BFR baselines by -0.0467 LPIPS and +52.58% attribute accuracy, while enabling fine-grained, prompt-controllable restoration even under severe degradations.