Rich Human Feedback for Text-to-Image Generation
作者: Youwei Liang, Junfeng He, Gang Li, Peizhao Li, Arseniy Klimovskiy, Nicholas Carolan, Jiao Sun, Jordi Pont-Tuset, Sarah Young, Feng Yang, Junjie Ke, Krishnamurthy Dj Dvijotham, Katie Collins, Yiwen Luo, Yang Li, Kai J Kohlhoff, Deepak Ramachandran, Vidhya Navalpakkam
分类: cs.CV
发布日期: 2023-12-15 (更新: 2024-04-09)
备注: CVPR'24
🔗 代码/项目: GITHUB
💡 一句话要点
提出RichHF-18K数据集,通过富含人类反馈信息提升文本到图像生成质量。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本到图像生成 人类反馈 多模态学习 图像质量提升 细粒度反馈
📋 核心要点
- 现有文本到图像生成模型存在图像质量问题,如伪影、与文本不符和美学质量低。
- 论文通过收集图像区域和文本词汇层面的细粒度人类反馈,训练多模态Transformer预测反馈。
- 实验表明,利用预测的丰富反馈可有效提升图像生成质量,并能泛化到其他模型。
📝 摘要(中文)
近年来,诸如Stable Diffusion和Imagen等文本到图像(T2I)生成模型在基于文本描述生成高分辨率图像方面取得了显著进展。然而,许多生成的图像仍然存在伪影/不合理性、与文本描述不一致以及美学质量低等问题。受人类反馈强化学习(RLHF)在大型语言模型中取得成功的启发,先前的工作收集了人类提供的生成图像评分作为反馈,并训练奖励模型以改进T2I生成。本文通过以下方式丰富了反馈信号:(i)标记图像中不合理或与文本不一致的区域,以及(ii)注释文本提示中哪些词在图像中被错误表示或缺失。我们在18K生成的图像上收集了这种丰富的的人类反馈(RichHF-18K),并训练了一个多模态Transformer来自动预测丰富的反馈。我们表明,预测的丰富的人类反馈可以被用来改善图像生成,例如,通过选择高质量的训练数据来微调和改进生成模型,或者通过使用预测的热图创建掩码来修复有问题区域。值得注意的是,这些改进推广到超出用于生成人类反馈数据图像的模型(Stable Diffusion变体),例如Muse。RichHF-18K数据集将在我们的GitHub存储库中发布:https://github.com/google-research/google-research/tree/master/richhf_18k。
🔬 方法详解
问题定义:文本到图像生成模型生成的图像常常存在与文本描述不符、图像质量差(如存在伪影)等问题。现有方法主要依赖于整体评分作为反馈信号,缺乏细粒度的指导信息,难以有效提升生成质量。
核心思路:论文的核心思路是通过收集更丰富的、细粒度的人类反馈信息,包括图像区域层面的不合理性标注和文本词汇层面的缺失或错误表示标注,从而更精确地指导图像生成模型的改进。这种细粒度的反馈能够提供更强的监督信号,帮助模型更好地理解文本描述并生成高质量的图像。
技术框架:整体框架包含数据收集和模型训练两个主要阶段。首先,收集RichHF-18K数据集,该数据集包含18K张生成图像以及对应的人工标注,标注信息包括图像区域的不合理性标记和文本词汇的错误表示或缺失标记。然后,训练一个多模态Transformer模型,该模型以图像和文本作为输入,预测对应的丰富人类反馈。
关键创新:最重要的创新点在于提出了细粒度的反馈机制,将反馈信息从整体评分扩展到图像区域和文本词汇层面。这种细粒度的反馈能够提供更强的监督信号,帮助模型更好地理解文本描述并生成高质量的图像。与现有方法相比,该方法能够更精确地定位生成图像中的问题,并提供更有效的改进方向。
关键设计:RichHF-18K数据集包含18K张图像,每张图像都配有详细的标注信息,包括图像区域的不合理性标记(例如,使用多边形标注)和文本词汇的错误表示或缺失标记。多模态Transformer模型采用标准的Transformer架构,输入包括图像特征和文本特征,输出为预测的丰富人类反馈(包括图像区域的热图和文本词汇的置信度得分)。损失函数采用交叉熵损失函数,用于衡量预测的反馈与人工标注之间的差异。
📊 实验亮点
论文构建了包含18K图像的RichHF-18K数据集,并证明了利用该数据集训练的多模态Transformer模型能够有效预测人类反馈。实验结果表明,使用预测的反馈信息可以显著提升图像生成质量,并且这种提升可以泛化到其他模型(如Muse),即使这些模型没有参与到反馈数据的生成过程中。
🎯 应用场景
该研究成果可应用于提升各种文本到图像生成模型的图像质量,尤其是在需要高精度和高一致性的场景下,例如艺术创作、产品设计、虚拟现实内容生成等。通过利用富含人类反馈的数据集,可以训练出更符合人类审美和需求的图像生成模型,从而提高用户体验和创造效率。
📄 摘要(原文)
Recent Text-to-Image (T2I) generation models such as Stable Diffusion and Imagen have made significant progress in generating high-resolution images based on text descriptions. However, many generated images still suffer from issues such as artifacts/implausibility, misalignment with text descriptions, and low aesthetic quality. Inspired by the success of Reinforcement Learning with Human Feedback (RLHF) for large language models, prior works collected human-provided scores as feedback on generated images and trained a reward model to improve the T2I generation. In this paper, we enrich the feedback signal by (i) marking image regions that are implausible or misaligned with the text, and (ii) annotating which words in the text prompt are misrepresented or missing on the image. We collect such rich human feedback on 18K generated images (RichHF-18K) and train a multimodal transformer to predict the rich feedback automatically. We show that the predicted rich human feedback can be leveraged to improve image generation, for example, by selecting high-quality training data to finetune and improve the generative models, or by creating masks with predicted heatmaps to inpaint the problematic regions. Notably, the improvements generalize to models (Muse) beyond those used to generate the images on which human feedback data were collected (Stable Diffusion variants). The RichHF-18K data set will be released in our GitHub repository: https://github.com/google-research/google-research/tree/master/richhf_18k.