PopAlign: Population-Level Alignment for Fair Text-to-Image Generation

📄 arXiv: 2406.19668v1 📥 PDF

作者: Shufan Li, Harkanwar Singh, Aditya Grover

分类: cs.CV

发布日期: 2024-06-28

备注: 18 pages, 10 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出PopAlign,解决文本到图像生成中群体层面偏见问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 文本到图像生成 偏见缓解 群体层面偏好 公平性 深度学习

📋 核心要点

  1. 现有T2I模型存在群体层面的偏见,例如“医生”提示下生成图像中男性比例过高,而现有对齐方法难以解决。
  2. PopAlign通过群体层面的偏好优化,使模型倾向于生成更符合目标群体分布的图像,从而减轻偏见。
  3. 实验表明,PopAlign在显著降低T2I模型偏见的同时,基本保持了图像生成质量,具有实际应用价值。

📝 摘要(中文)

文本到图像(T2I)模型通过大规模数据集的训练实现了高保真度的生成。然而,这些模型可能会无意中学习到训练数据中不希望存在的偏见,例如在性别或种族中立的提示中过度表示特定身份。现有的对齐方法,如基于人类反馈的强化学习(RLHF)和直接偏好优化(DPO),未能有效解决这个问题,因为它们操作的是由单个样本组成的成对偏好,而上述偏见只能在群体层面进行衡量。为了解决这个局限性,我们引入了PopAlign,这是一种用于群体层面偏好优化的新方法,标准优化会优先选择整个样本集。我们进一步推导出一个随机下界,直接优化来自首选群体的单个样本,从而实现可扩展的训练。通过人工评估和标准图像质量及偏见指标,我们表明PopAlign在很大程度上减轻了预训练T2I模型的偏见,同时基本保持了生成质量。

🔬 方法详解

问题定义:论文旨在解决文本到图像生成模型中存在的群体层面偏见问题。现有方法,如RLHF和DPO,主要关注单个样本的偏好对齐,无法有效解决在群体层面才能观察到的偏见,例如在生成“医生”图像时,模型倾向于生成过多的男性医生,即使提示本身是性别中立的。这种偏见来源于训练数据中的不平衡分布,并被模型学习和放大。

核心思路:PopAlign的核心思路是引入群体层面的偏好优化。与传统的基于单个样本对的偏好优化不同,PopAlign关注的是整个样本集合的偏好。它鼓励模型生成符合目标群体分布的样本,从而减少偏见。具体来说,PopAlign的目标是优化模型,使其生成的样本集合在群体层面上更接近于期望的无偏分布。

技术框架:PopAlign的技术框架主要包括以下几个步骤:1) 使用预训练的文本到图像生成模型生成一组样本;2) 定义一个群体层面的偏好函数,用于评估生成样本集合的偏见程度;3) 使用PopAlign算法优化模型,使其生成的样本集合的偏见程度最小化。PopAlign算法通过一个随机下界来近似群体层面的偏好优化,从而实现可扩展的训练。

关键创新:PopAlign的关键创新在于提出了群体层面的偏好优化方法。与现有的基于单个样本对的偏好优化方法相比,PopAlign能够更有效地解决文本到图像生成模型中存在的群体层面偏见问题。此外,PopAlign还提出了一个随机下界,用于近似群体层面的偏好优化,从而实现可扩展的训练。

关键设计:PopAlign的关键设计包括:1) 群体层面偏好函数的定义:该函数用于评估生成样本集合的偏见程度,可以基于各种指标,如性别比例、种族比例等;2) 随机下界的推导:该下界用于近似群体层面的偏好优化,可以基于各种优化算法,如梯度下降等;3) 训练过程的设计:训练过程需要平衡图像生成质量和偏见程度,可以使用各种正则化方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PopAlign能够显著降低预训练T2I模型的偏见,同时基本保持了图像生成质量。通过人工评估和标准图像质量及偏见指标的评估,PopAlign在偏见缓解方面优于现有方法,并且在图像质量方面与现有方法相当。代码已开源。

🎯 应用场景

PopAlign可应用于各种文本到图像生成场景,尤其是在需要公平性和避免偏见的领域,例如医疗图像生成、教育资源生成、以及新闻媒体等。通过减少模型中的偏见,PopAlign可以提高生成内容的多样性和包容性,从而更好地服务于不同背景的用户,并促进社会公平。

📄 摘要(原文)

Text-to-image (T2I) models achieve high-fidelity generation through extensive training on large datasets. However, these models may unintentionally pick up undesirable biases of their training data, such as over-representation of particular identities in gender or ethnicity neutral prompts. Existing alignment methods such as Reinforcement Learning from Human Feedback (RLHF) and Direct Preference Optimization (DPO) fail to address this problem effectively because they operate on pairwise preferences consisting of individual samples, while the aforementioned biases can only be measured at a population level. For example, a single sample for the prompt "doctor" could be male or female, but a model generating predominantly male doctors even with repeated sampling reflects a gender bias. To address this limitation, we introduce PopAlign, a novel approach for population-level preference optimization, while standard optimization would prefer entire sets of samples over others. We further derive a stochastic lower bound that directly optimizes for individual samples from preferred populations over others for scalable training. Using human evaluation and standard image quality and bias metrics, we show that PopAlign significantly mitigates the bias of pretrained T2I models while largely preserving the generation quality. Code is available at https://github.com/jacklishufan/PopAlignSDXL.