Leveraging Human Revisions for Improving Text-to-Layout Models

📄 arXiv: 2405.13026v1 📥 PDF

作者: Amber Xie, Chin-Yi Cheng, Forrest Huang, Yang Li

分类: cs.CL, cs.AI

发布日期: 2024-05-16


💡 一句话要点

提出Revision-Aware Reward Models,利用人工修订改进文本到布局生成模型。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 文本到布局 生成模型 人工反馈 强化学习 奖励模型 人工修订 移动界面设计

📋 核心要点

  1. 现有文本到布局模型缺乏与人类设计意图的对齐,通常依赖于高级偏好标签,忽略了更细粒度的反馈信息。
  2. 论文提出Revision-Aware Reward Models,通过学习专业设计师对生成布局的修订,训练奖励模型,从而指导模型生成更符合人类意图的布局。
  3. 实验表明,该方法能够生成更现代、更符合设计师意图的布局,验证了利用人工修订改进生成模型的有效性。

📝 摘要(中文)

本文提出了一种利用人工修订来增强文本到布局生成模型的方法。现有工作主要集中于从高级标签(例如模型输出对之间的偏好)中学习。然而,许多领域可以从更深入、更详细的反馈中受益,例如人工用户的修订、解释和推理。本文提出使用人工修订这种细致的反馈形式来实现更强的对齐。具体来说,我们要求专业设计师修改由大规模移动屏幕数据集上预训练的生成布局模型生成的布局。然后,我们基于人工设计师如何修改这些生成的布局来训练奖励模型。利用学习到的奖励模型,我们使用基于人工反馈的强化学习(RLHF)来优化我们的模型。我们的方法,即Revision-Aware Reward Models($\method$),使生成式文本到布局模型能够生成更现代、更符合设计师意图的布局,展示了在改进生成模型中利用人工修订和更强形式的反馈的潜力。

🔬 方法详解

问题定义:本文旨在解决文本到布局生成模型与人类设计意图不对齐的问题。现有方法主要依赖于高级偏好标签,例如对模型输出进行排序,而忽略了更细粒度的反馈信息,例如设计师的修改意见。这些高级标签无法充分捕捉人类设计的复杂性和细微差别,导致生成的布局可能不符合设计师的审美和功能需求。

核心思路:本文的核心思路是利用人工修订作为一种更细粒度的反馈形式来训练奖励模型。通过学习专业设计师对生成布局的修改,奖励模型可以更好地理解人类的设计意图,并为生成模型提供更准确的指导。这种方法能够捕捉到人类设计的细微差别,从而生成更符合人类意图的布局。

技术框架:整体框架包括以下几个主要阶段:1) 使用大规模移动屏幕数据集预训练一个生成布局模型。2) 要求专业设计师修改由生成模型生成的布局,收集人工修订数据。3) 基于人工修订数据训练一个奖励模型,该模型能够评估生成布局的质量并预测设计师的修改方向。4) 使用基于人工反馈的强化学习(RLHF)来优化生成模型,使其能够生成更高质量、更符合人类意图的布局。

关键创新:本文最重要的技术创新点在于利用人工修订作为一种更细粒度的反馈形式来训练奖励模型。与现有方法相比,人工修订能够提供更丰富、更详细的设计信息,从而使奖励模型能够更好地理解人类的设计意图。此外,本文还提出了一种Revision-Aware Reward Model,该模型能够有效地利用人工修订数据来学习奖励函数。

关键设计:奖励模型的设计是关键。具体来说,奖励模型输入是原始生成布局和人工修订后的布局,输出是一个奖励值,表示修订后的布局比原始布局更好。奖励模型的训练目标是最大化修订后布局的奖励值,同时最小化原始布局的奖励值。强化学习阶段,使用PPO算法优化生成模型,目标是最大化奖励模型给出的奖励值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Revision-Aware Reward Models($\method$)能够显著提高文本到布局生成模型的性能。与基线方法相比,该方法生成的布局更现代、更符合设计师意图。具体来说,通过人工评估,$\method$生成的布局在美观性、可用性和一致性等方面均优于基线方法。这些结果表明,利用人工修订可以有效地改进生成模型,使其能够更好地满足人类的需求。

🎯 应用场景

该研究成果可应用于各种文本到布局生成场景,例如移动应用界面设计、网页设计、广告设计等。通过利用人工修订来改进生成模型,可以显著提高设计效率和质量,降低设计成本。未来,该方法还可以扩展到其他生成任务,例如图像生成、文本生成等,从而实现更智能、更人性化的内容创作。

📄 摘要(原文)

Learning from human feedback has shown success in aligning large, pretrained models with human values. Prior works have mostly focused on learning from high-level labels, such as preferences between pairs of model outputs. On the other hand, many domains could benefit from more involved, detailed feedback, such as revisions, explanations, and reasoning of human users. Our work proposes using nuanced feedback through the form of human revisions for stronger alignment. In this paper, we ask expert designers to fix layouts generated from a generative layout model that is pretrained on a large-scale dataset of mobile screens. Then, we train a reward model based on how human designers revise these generated layouts. With the learned reward model, we optimize our model with reinforcement learning from human feedback (RLHF). Our method, Revision-Aware Reward Models ($\method$), allows a generative text-to-layout model to produce more modern, designer-aligned layouts, showing the potential for utilizing human revisions and stronger forms of feedback in improving generative models.