PerceptUI: LLM Agents as Human-Aligned Synthetic Users for UI/UX Evaluation
作者: Nicolas Bougie, Xiaotong Ye, Gian Maria Marconi, Narimasa Watanabe
分类: cs.AI
发布日期: 2026-06-04
💡 一句话要点
提出PerceptUI框架以提升UI/UX评估的效率与准确性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 用户界面评估 用户体验设计 多模态大型语言模型 角色条件化 自然语言处理 机器学习 产品开发
📋 核心要点
- 现有的UI/UX评估方法依赖于人类参与者或在线测试,导致反馈过程缓慢且成本高昂。
- PerceptUI框架通过角色条件化的方式,预测特定用户的反馈并生成自然语言推理,提升评估的准确性。
- 在多个领域的实验中,PerceptUI展示了人类级别的真实感,并能有效推广至新问题和角色。
📝 摘要(中文)
用户界面(UI)和用户体验(UX)的评估在产品开发中至关重要,但可靠的反馈仍依赖于招募人类参与者或进行在线A/B测试,这使得早期迭代变得缓慢且成本高昂。为此,近期研究探索了多模态大型语言模型作为代理评估者。然而,现有方法要么产生表面化的批评,要么反映模型自身的偏见,而非特定用户的真实反馈。我们提出了PerceptUI,一个基于角色条件的UI/UX评估框架,能够预测特定用户对界面相关问题的回答,并生成自然语言的推理。PerceptUI经过两个阶段的训练:第一阶段是对比反思微调,从人类决策中提取教训;第二阶段是基于模型自身失败轨迹的反思性提示演变。在多个领域和数据集上,PerceptUI实现了人类级别的真实感,能够推广到未见过的问题和角色,并产生群体级的响应分布。
🔬 方法详解
问题定义:论文旨在解决现有UI/UX评估方法的局限性,尤其是依赖人类参与者和在线测试所带来的高成本和低效率问题。现有方法往往产生表面化的反馈或反映模型的偏见,而非真实用户的反应。
核心思路:PerceptUI框架通过角色条件化的方式,模拟特定用户的反馈,生成更具真实性的自然语言推理,从而提高UI/UX评估的效率和准确性。
技术框架:PerceptUI的训练分为两个主要阶段:第一阶段是对比反思微调,提取人类决策中的教训;第二阶段是基于模型自身失败轨迹的反思性提示演变。整体架构包括数据收集、模型训练和评估三个主要模块。
关键创新:PerceptUI的核心创新在于其角色条件化的评估机制,能够生成符合特定用户背景的反馈,与传统方法相比,显著提高了评估的真实性和适用性。
关键设计:在训练过程中,采用了对比损失函数来优化模型的推理能力,并设计了多层次的网络结构以增强模型对复杂问题的理解能力。
🖼️ 关键图片
📊 实验亮点
在多个领域的实验中,PerceptUI达到了人类级别的真实感,能够有效推广到未见过的问题和角色。与传统方法相比,其评估结果的准确性和适用性显著提升,展现出强大的群体级响应分布能力。
🎯 应用场景
PerceptUI框架在产品开发、用户体验设计和市场研究等领域具有广泛的应用潜力。通过提供更快速和准确的UI/UX评估,企业能够在早期阶段快速迭代产品设计,降低开发成本,并提升用户满意度。未来,该框架还可能扩展到其他领域,如教育和医疗,进一步推动人机交互的研究与应用。
📄 摘要(原文)
User interface (UI) and user experience (UX) evaluation is central to product development, yet reliable feedback still relies on recruiting human participants or running online A/B tests, making early-stage iteration slow and costly. In light of this, recent work has explored Multimodal Large Language Models as proxy evaluators. However, existing approaches either produce surface-level critiques or a judgment that reflects the model's own biases rather than the genuine response of a particular user. We introduce PerceptUI, a framework for persona-conditioned UI/UX evaluation that predicts how a specific user would answer interface-related questions and produces natural-language rationales. PerceptUI is trained in two stages: (i) contrastive reflection fine-tuning distills teacher-generated rationales by extracting lessons from human decisions, and (ii) a reflective prompt-evolution step from the model's own failure traces. Across multiple domains and datasets, PerceptUI achieves human-level realism, generalizes to unseen questions and personas, and yields population-level response distributions.