Pareto-Enhanced Portrait Generation: Vision-Aligned Text Supervision for Alignment, Realism, and Aesthetics

📄 arXiv: 2605.20640v1 📥 PDF

作者: Yunlong Wang, Jinjin Shi, Wenbin Gao, Xuran Xu, Runyu Shi, Ying Huang

分类: cs.CV, cs.AI

发布日期: 2026-05-20


💡 一句话要点

提出Pareto优化的肖像生成方法,通过视觉对齐的文本监督提升对齐性、真实性和美学质量。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本到图像生成 人像生成 扩散模型 多模态学习 视觉对齐 特征监督 美学优化

📋 核心要点

  1. 文本到图像生成在人像领域面临对齐性、真实感和美学三难困境,现有微调方法易过拟合,损害预训练先验。
  2. 提出视觉对齐的文本监督方法,利用SigLIP提取视觉对齐的文本特征,并从视觉模型中挖掘美学信号。
  3. 实验表明,该方法在MM-DiT上实现了文本-图像对齐、真实感和美学质量的协同提升,推动了Pareto前沿。

📝 摘要(中文)

本文针对文本到图像扩散模型在人像生成中面临的文本-图像对齐、照片真实感和人类感知美学三者难以兼顾的问题,提出了一种特征监督范式用于多模态扩散Transformer(MM-DiT)。具体而言,引入了一种轻量级的跨模态对齐机制,从SigLIP提取多粒度的视觉对齐文本表示,并在训练阶段将其作为监督信号施加于MM-DiT的图像分支,且不增加额外的推理开销。该方法在保留基础模型泛化能力的同时,注入了视觉对齐的文本指导,避免了SFT引起的性能下降。此外,该方法直接从预训练的视觉基础模型中挖掘隐含的多粒度美学信号,以优化人类感知的美学质量。在MM-DiT上的大量实验表明,该方法推动了Pareto前沿,并在文本-图像对齐、照片真实感和人类感知美学方面实现了协同改进。

🔬 方法详解

问题定义:文本到图像的人像生成任务中,模型往往难以同时保证文本与图像的对齐性、生成图像的逼真程度以及符合人类审美偏好。现有的监督微调(SFT)方法虽然可以提升图像的真实感,但容易过拟合训练数据,破坏预训练模型的图像先验知识,从而降低对齐性和美观度。

核心思路:本文的核心思路是通过引入视觉对齐的文本监督,在训练过程中引导图像生成过程,同时利用预训练视觉模型中蕴含的美学信息来提升生成图像的美观度。这种方法旨在避免传统SFT带来的过拟合问题,并在不牺牲对齐性和美观度的前提下,提升图像的真实感。

技术框架:该方法基于多模态扩散Transformer(MM-DiT)架构。主要包含以下几个模块:1) 轻量级跨模态对齐机制:用于从SigLIP模型中提取多粒度的视觉对齐文本表示。2) 特征监督模块:将提取的文本表示作为监督信号,施加到MM-DiT的图像分支上,引导图像生成。3) 美学优化模块:从预训练的视觉基础模型中挖掘隐含的美学信号,并将其用于优化生成图像的美观度。整个框架在训练阶段进行特征监督和美学优化,但在推理阶段没有额外的计算开销。

关键创新:该方法最重要的创新点在于引入了视觉对齐的文本监督机制,以及从预训练视觉模型中挖掘美学信息。与传统的SFT方法不同,该方法不是直接对图像进行监督,而是通过视觉对齐的文本特征来引导图像生成,从而避免了过拟合问题。此外,利用预训练视觉模型的美学信息,可以有效地提升生成图像的美观度。

关键设计:在跨模态对齐机制中,使用了SigLIP模型来提取视觉对齐的文本表示。在特征监督模块中,使用了多粒度的文本特征,以提供更丰富的监督信息。在美学优化模块中,具体如何从预训练视觉模型中提取美学信号,以及如何将其融入到损失函数中,论文中可能包含更详细的设计(具体细节未知)。

📊 实验亮点

该方法在MM-DiT模型上进行了大量实验,结果表明,该方法在文本-图像对齐、照片真实感和人类感知美学方面实现了协同改进,推动了Pareto前沿。具体的性能数据和对比基线(例如FID、CLIP score等)以及提升幅度需要在论文中查找(具体数据未知)。

🎯 应用场景

该研究成果可广泛应用于人像生成、虚拟形象定制、艺术创作等领域。通过提升生成图像的真实感、对齐性和美观度,可以为用户提供更优质的图像生成体验。此外,该方法还可以应用于其他文本到图像生成任务,例如风景生成、物体生成等,具有广泛的应用前景。

📄 摘要(原文)

Text-to-image diffusion models often face a severe trilemma in human portrait generation: text-image alignment, photorealism, and human-perceived aesthetics inherently inhibit one another. Supervised Fine-Tuning (SFT) is an effective method for enhancing the photorealism of image generation. However, it often leads to overfitting to the training dataset, corrupts pre-trained image priors, and degrades alignment or aesthetics. To break this bottleneck, we propose a feature supervision paradigm for Multimodal Diffusion Transformers (MM-DiT). Specifically, we introduce a lightweight cross-modal alignment mechanism that implicitly extracts multi-granularity vision-aligned text representations from SigLIP 2 and applies supervision to the image branch of MM-DiT during the training stage, with zero extra inference overhead. Our method injects vision-aligned text guidance while preserving the base model's original generalization, avoiding degradation caused by SFT. Furthermore, our method directly mines implicit multi-granularity aesthetic signals from pre-trained vision foundation models to optimize human-perceived aesthetics. Extensive experiments on MM-DiTs show that our method pushes the Pareto frontier and achieves synergistic improvements across text-image alignment, photorealism, and human-perceived aesthetics.