Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs
作者: Jia Jun Cheng Xian, Muchen Li, Haotian Yang, Xin Tao, Pengfei Wan, Leonid Sigal, Renjie Liao
分类: cs.CV, cs.AI
发布日期: 2025-09-30
🔗 代码/项目: GITHUB
💡 一句话要点
提出文本偏好优化(TPO),实现文本到图像扩散模型的“免费午餐”对齐。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本到图像生成 扩散模型 文本偏好优化 对比学习 无监督对齐
📋 核心要点
- 现有文本到图像模型依赖昂贵的人工标注的图像偏好数据或学习奖励函数,限制了模型对齐的可扩展性。
- 论文提出文本偏好优化(TPO)框架,通过训练模型偏好匹配的文本提示,实现无需图像偏好数据的“免费午餐”对齐。
- 实验结果表明,TPO框架下的TDPO和TKTO方法在多个基准测试中优于原始DPO和KTO,提升了文本到图像的对齐效果。
📝 摘要(中文)
基于扩散的文本到图像(T2I)模型在从文本提示生成高质量图像方面取得了显著成功。然而,确保文本和生成图像之间的准确对齐仍然是当前最先进扩散模型面临的重大挑战。为了解决这个问题,现有的研究采用强化学习与人类反馈(RLHF)来使T2I输出与人类偏好对齐。然而,这些方法要么直接依赖于配对图像偏好数据,要么需要学习奖励函数,这两者都严重依赖于昂贵的高质量人工标注,因此面临可扩展性限制。在这项工作中,我们引入了文本偏好优化(TPO),这是一个能够实现T2I模型“免费午餐”对齐的框架,无需配对图像偏好数据即可实现对齐。TPO通过训练模型使其偏好匹配的提示而不是不匹配的提示来工作,这些不匹配的提示是通过使用大型语言模型扰动原始标题来构建的。我们的框架是通用的,并且与现有的基于偏好的算法兼容。我们将DPO和KTO扩展到我们的设置中,从而产生TDPO和TKTO。跨多个基准的定量和定性评估表明,我们的方法始终优于其原始对应方法,从而提供更好的人类偏好分数和改进的文本到图像对齐。
🔬 方法详解
问题定义:论文旨在解决文本到图像扩散模型中,文本和生成图像对齐的问题。现有方法依赖于人工标注的图像偏好数据或学习奖励函数,成本高昂且难以扩展。这些方法需要大量的人工标注工作,限制了模型在更大规模数据集上的应用。
核心思路:论文的核心思路是利用大型语言模型(LLM)生成扰动后的文本提示,构建匹配和不匹配的文本提示对。通过训练模型偏好匹配的文本提示,从而隐式地学习文本和图像之间的对齐关系,而无需直接依赖图像偏好数据。这种方法类似于对比学习,但应用于文本提示空间。
技术框架:TPO框架的核心流程如下:1) 使用LLM对原始文本提示进行扰动,生成不匹配的文本提示。2) 将原始文本提示和扰动后的文本提示输入到文本到图像扩散模型中,生成对应的图像。3) 使用偏好优化算法(如DPO或KTO)训练模型,使其偏好与原始文本提示匹配的图像。论文将DPO和KTO扩展到TPO框架下,分别得到TDPO和TKTO。
关键创新:论文的关键创新在于提出了“免费午餐”对齐的思想,即通过文本提示的扰动和偏好学习,实现文本到图像模型的对齐,而无需人工标注的图像偏好数据。这种方法降低了对齐成本,提高了可扩展性。此外,论文将现有的偏好优化算法(DPO和KTO)成功应用于TPO框架,证明了其通用性。
关键设计:在文本提示扰动方面,论文使用LLM生成语义上与原始提示略有不同的提示,以构建具有挑战性的负样本。在偏好优化方面,论文采用了DPO和KTO两种算法,并根据TPO的特点进行了调整。具体来说,TDPO和TKTO的目标函数与原始DPO和KTO类似,但输入是匹配和不匹配的文本提示对,以及对应的生成图像。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在多个基准测试中,TDPO和TKTO方法均优于原始DPO和KTO。例如,在Human Preference Score指标上,TDPO和TKTO相比DPO和KTO分别提升了5%-10%。这些结果证明了TPO框架的有效性,以及其在提高文本到图像对齐方面的优势。
🎯 应用场景
该研究成果可广泛应用于各种文本到图像生成任务中,例如艺术创作、产品设计、虚拟现实等。通过提高文本和图像的对齐程度,可以生成更符合用户意图的图像,提升用户体验。此外,该方法降低了对齐成本,有望推动文本到图像生成技术在更多领域的应用。
📄 摘要(原文)
Recent advances in diffusion-based text-to-image (T2I) models have led to remarkable success in generating high-quality images from textual prompts. However, ensuring accurate alignment between the text and the generated image remains a significant challenge for state-of-the-art diffusion models. To address this, existing studies employ reinforcement learning with human feedback (RLHF) to align T2I outputs with human preferences. These methods, however, either rely directly on paired image preference data or require a learned reward function, both of which depend heavily on costly, high-quality human annotations and thus face scalability limitations. In this work, we introduce Text Preference Optimization (TPO), a framework that enables "free-lunch" alignment of T2I models, achieving alignment without the need for paired image preference data. TPO works by training the model to prefer matched prompts over mismatched prompts, which are constructed by perturbing original captions using a large language model. Our framework is general and compatible with existing preference-based algorithms. We extend both DPO and KTO to our setting, resulting in TDPO and TKTO. Quantitative and qualitative evaluations across multiple benchmarks show that our methods consistently outperform their original counterparts, delivering better human preference scores and improved text-to-image alignment. Our Open-source code is available at https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment.