Improving User Interface Generation Models from Designer Feedback

📄 arXiv: 2509.16779v1 📥 PDF

作者: Jason Wu, Amanda Swearngin, Arun Krishna Vajjala, Alan Leung, Jeffrey Nichols, Titus Barik

分类: cs.HC, cs.LG

发布日期: 2025-09-20


💡 一句话要点

提出设计师反馈驱动的UI生成模型,显著提升UI设计质量

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 用户界面生成 设计师反馈 大型语言模型 人机交互 强化学习人类反馈

📋 核心要点

  1. 现有UI生成模型难以生成高质量UI,缺乏与设计师工作流的有效对齐。
  2. 利用评论、草图、直接操作等交互方式,收集设计师的丰富反馈信息。
  3. 通过设计师反馈微调LLM,显著提升UI生成质量,超越传统RLHF方法。

📝 摘要(中文)

尽管大型语言模型(LLMs)在海量数据上训练,但它们无法可靠地生成设计良好的用户界面(UI)。设计师的反馈对于提高UI生成性能至关重要。然而,我们发现现有的基于评分或排名的强化学习人类反馈(RLHF)方法与设计师的工作流程不一致,并且忽略了用于评论和改进UI设计的丰富理由。在本文中,我们研究了几种设计师向UI生成模型提供反馈的方法,使用了诸如评论、草图和直接操作等熟悉的交互方式。我们首先对21位设计师进行了一项研究,他们使用这些交互方式提供了反馈,产生了约1500个设计注释。然后,我们使用这些数据来微调一系列LLM,以生成更高质量的UI。最后,我们用人工评估员评估这些模型,发现我们与设计师对齐的方法优于使用传统排名反馈训练的模型和所有测试的基线,包括GPT-5。

🔬 方法详解

问题定义:现有UI生成模型,即使基于大型语言模型,仍然难以生成高质量、符合设计原则的UI。传统的强化学习人类反馈(RLHF)方法,例如基于评分或排名,无法充分利用设计师的专业知识和设计理由,与设计师的实际工作流程脱节,导致模型难以有效学习和改进UI设计。

核心思路:核心思路是让设计师使用他们熟悉的交互方式(例如评论、草图、直接操作)直接对生成的UI进行反馈,从而收集更丰富、更细粒度的设计信息。这些反馈不仅包含对UI的评价,还包括改进建议和设计理由,为模型提供更有效的学习信号。

技术框架:整体框架包含以下几个阶段:1) UI生成模型:使用LLM生成初始UI设计。2) 设计师反馈收集:设计师使用评论、草图、直接操作等方式对生成的UI进行反馈,生成设计注释数据集。3) 模型微调:使用收集到的设计注释数据集微调LLM,使其能够更好地理解设计师的意图并生成更高质量的UI。4) 人工评估:使用人工评估员对微调后的模型生成的UI进行评估,验证方法的有效性。

关键创新:关键创新在于将设计师的反馈融入到UI生成模型的训练过程中,并且采用与设计师工作流程对齐的反馈方式。与传统的基于评分或排名的RLHF方法不同,该方法能够收集更丰富、更细粒度的设计信息,从而更有效地指导模型的学习。

关键设计:论文中没有详细描述具体的参数设置、损失函数、网络结构等技术细节。但是,可以推断出,微调过程可能使用了监督学习或强化学习等方法,并且可能针对设计师反馈的特点设计了特定的损失函数,例如,鼓励模型生成更符合设计师评论的UI,或者更接近设计师草图的UI。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用设计师反馈微调的LLM在UI生成质量方面显著优于使用传统排名反馈训练的模型和所有测试的基线,包括GPT-5。这表明与设计师对齐的反馈方式能够更有效地指导模型的学习,从而生成更高质量的UI。

🎯 应用场景

该研究成果可应用于各种UI设计工具和平台,帮助设计师更高效地生成高质量的UI。通过与设计师工作流程的有效集成,可以显著提升UI设计的效率和质量,降低设计成本,并促进更具创新性的UI设计。

📄 摘要(原文)

Despite being trained on vast amounts of data, most LLMs are unable to reliably generate well-designed UIs. Designer feedback is essential to improving performance on UI generation; however, we find that existing RLHF methods based on ratings or rankings are not well-aligned with designers' workflows and ignore the rich rationale used to critique and improve UI designs. In this paper, we investigate several approaches for designers to give feedback to UI generation models, using familiar interactions such as commenting, sketching and direct manipulation. We first perform a study with 21 designers where they gave feedback using these interactions, which resulted in ~1500 design annotations. We then use this data to finetune a series of LLMs to generate higher quality UIs. Finally, we evaluate these models with human judges, and we find that our designer-aligned approaches outperform models trained with traditional ranking feedback and all tested baselines, including GPT-5.