Automated Filtering of Human Feedback Data for Aligning Text-to-Image Diffusion Models

📄 arXiv: 2410.10166v2 📥 PDF

作者: Yongjin Yang, Sihyeon Kim, Hojung Jung, Sangmin Bae, SangMook Kim, Se-Young Yun, Kimin Lee

分类: cs.LG, cs.AI

发布日期: 2024-10-14 (更新: 2025-04-02)

备注: ICLR 2025; Project Page available at : https://sprain02.github.io/FiFA/


💡 一句话要点

提出FiFA,通过自动过滤人类反馈数据,提升文本到图像扩散模型的对齐效果。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本到图像生成 扩散模型 人类反馈 数据过滤 直接偏好优化

📋 核心要点

  1. 利用人类反馈微调文本到图像扩散模型是使其与人类意图对齐的有效方法,但数据集的规模和噪声导致收敛缓慢。
  2. FiFA算法通过优化偏好裕度、文本质量和文本多样性,自动过滤人类反馈数据,从而提升微调效率和模型性能。
  3. 实验表明,FiFA在显著减少数据使用量和GPU时间的同时,提高了训练稳定性和人类偏好度,验证了其有效性。

📝 摘要(中文)

本文提出了一种名为FiFA的自动数据过滤算法,旨在提升使用直接偏好优化(DPO)的人类反馈数据集对文本到图像扩散模型进行微调的效果。该方法通过解决一个优化问题来选择数据,以最大化三个组成部分:偏好裕度、文本质量和文本多样性。偏好裕度的概念用于识别信息量大的样本,以解决反馈数据集中的噪声问题,该裕度通过代理奖励模型计算。此外,我们纳入了由大型语言模型评估的文本质量,以防止有害内容,并通过k近邻熵估计器考虑文本多样性,以提高泛化能力。最后,我们将所有这些组件集成到一个优化过程中,通过为每个数据对分配重要性分数并选择最重要的那些来近似求解。实验结果表明,FiFA显著提高了训练稳定性,并取得了更好的性能,人类偏好度提高了17%,同时使用的数据不到完整数据的0.5%,GPU使用时间仅为完整数据集的1%。

🔬 方法详解

问题定义:现有方法在利用人类反馈微调文本到图像扩散模型时,面临着数据集规模庞大和噪声严重的问题,导致训练收敛速度慢,效率低下。如何从大规模含噪的人类反馈数据集中筛选出高质量、信息量大的数据,是提升模型对齐效果的关键挑战。

核心思路:FiFA的核心思路是通过优化数据选择过程,最大化所选数据的偏好裕度、文本质量和文本多样性。偏好裕度用于识别信息量大的样本,文本质量用于过滤有害内容,文本多样性用于提高模型的泛化能力。通过综合考虑这三个因素,FiFA能够自动选择最具价值的数据子集,从而加速训练过程并提升模型性能。

技术框架:FiFA的整体框架包括以下几个主要模块:1) 偏好裕度计算:使用代理奖励模型计算数据对的偏好裕度,衡量其信息量。2) 文本质量评估:利用大型语言模型评估文本的质量,过滤有害内容。3) 文本多样性估计:通过k近邻熵估计器评估文本的多样性,保证所选数据的覆盖范围。4) 优化与选择:将上述三个指标整合到一个优化问题中,通过为每个数据对分配重要性分数并选择最重要的那些来近似求解,最终筛选出用于微调的数据子集。

关键创新:FiFA的关键创新在于其自动化的数据过滤流程,无需人工干预即可从大规模人类反馈数据集中选择高质量的数据。与传统方法相比,FiFA能够更有效地利用数据,提高训练效率和模型性能。此外,FiFA综合考虑了偏好裕度、文本质量和文本多样性,从而保证了所选数据的质量和代表性。

关键设计:FiFA的关键设计包括:1) 使用代理奖励模型计算偏好裕度,该模型需要预先训练以准确反映人类偏好。2) 利用大型语言模型进行文本质量评估,需要选择合适的模型并设置合理的阈值以过滤有害内容。3) 使用k近邻熵估计器评估文本多样性,需要选择合适的k值以平衡多样性和计算复杂度。4) 通过分配重要性分数并选择最重要的那些数据对来近似求解优化问题,需要设计合适的评分函数以平衡偏好裕度、文本质量和文本多样性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FiFA在训练文本到图像扩散模型时,仅使用不到0.5%的完整数据集,GPU使用时间仅为完整数据集的1%,即可达到更好的性能,人类偏好度提高了17%。这表明FiFA能够显著提高训练效率和模型性能,具有很强的实用性。

🎯 应用场景

FiFA可广泛应用于文本到图像生成模型的对齐任务中,尤其是在需要利用大规模人类反馈数据进行微调的场景下。该方法能够有效提升模型生成图像的质量和安全性,使其更好地满足人类的意图和偏好。此外,FiFA的自动化数据过滤流程也降低了人工成本,提高了开发效率,具有重要的实际应用价值。

📄 摘要(原文)

Fine-tuning text-to-image diffusion models with human feedback is an effective method for aligning model behavior with human intentions. However, this alignment process often suffers from slow convergence due to the large size and noise present in human feedback datasets. In this work, we propose FiFA, a novel automated data filtering algorithm designed to enhance the fine-tuning of diffusion models using human feedback datasets with direct preference optimization (DPO). Specifically, our approach selects data by solving an optimization problem to maximize three components: preference margin, text quality, and text diversity. The concept of preference margin is used to identify samples that are highly informative in addressing the noisy nature of feedback dataset, which is calculated using a proxy reward model. Additionally, we incorporate text quality, assessed by large language models to prevent harmful contents, and consider text diversity through a k-nearest neighbor entropy estimator to improve generalization. Finally, we integrate all these components into an optimization process, with approximating the solution by assigning importance score to each data pair and selecting the most important ones. As a result, our method efficiently filters data automatically, without the need for manual intervention, and can be applied to any large-scale dataset. Experimental results show that FiFA significantly enhances training stability and achieves better performance, being preferred by humans 17% more, while using less than 0.5% of the full data and thus 1% of the GPU hours compared to utilizing full human feedback datasets.