PerceptUI: LLM Agents as Human-Aligned Synthetic Users for UI/UX Evaluation

作者: Nicolas Bougie, Xiaotong Ye, Gian Maria Marconi, Narimasa Watanabe

分类: cs.AI

发布日期: 2026-06-04

💡 一句话要点

提出PerceptUI框架以提升UI/UX评估的效率与准确性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 用户界面评估 用户体验设计 多模态大型语言模型 角色条件化 自然语言处理 机器学习 产品开发

📋 核心要点

现有的UI/UX评估方法依赖于人类参与者或在线测试，导致反馈过程缓慢且成本高昂。
PerceptUI框架通过角色条件化的方式，预测特定用户的反馈并生成自然语言推理，提升评估的准确性。
在多个领域的实验中，PerceptUI展示了人类级别的真实感，并能有效推广至新问题和角色。

📝 摘要（中文）

用户界面（UI）和用户体验（UX）的评估在产品开发中至关重要，但可靠的反馈仍依赖于招募人类参与者或进行在线A/B测试，这使得早期迭代变得缓慢且成本高昂。为此，近期研究探索了多模态大型语言模型作为代理评估者。然而，现有方法要么产生表面化的批评，要么反映模型自身的偏见，而非特定用户的真实反馈。我们提出了PerceptUI，一个基于角色条件的UI/UX评估框架，能够预测特定用户对界面相关问题的回答，并生成自然语言的推理。PerceptUI经过两个阶段的训练：第一阶段是对比反思微调，从人类决策中提取教训；第二阶段是基于模型自身失败轨迹的反思性提示演变。在多个领域和数据集上，PerceptUI实现了人类级别的真实感，能够推广到未见过的问题和角色，并产生群体级的响应分布。

🔬 方法详解

问题定义：论文旨在解决现有UI/UX评估方法的局限性，尤其是依赖人类参与者和在线测试所带来的高成本和低效率问题。现有方法往往产生表面化的反馈或反映模型的偏见，而非真实用户的反应。

核心思路：PerceptUI框架通过角色条件化的方式，模拟特定用户的反馈，生成更具真实性的自然语言推理，从而提高UI/UX评估的效率和准确性。

技术框架：PerceptUI的训练分为两个主要阶段：第一阶段是对比反思微调，提取人类决策中的教训；第二阶段是基于模型自身失败轨迹的反思性提示演变。整体架构包括数据收集、模型训练和评估三个主要模块。

关键创新：PerceptUI的核心创新在于其角色条件化的评估机制，能够生成符合特定用户背景的反馈，与传统方法相比，显著提高了评估的真实性和适用性。

关键设计：在训练过程中，采用了对比损失函数来优化模型的推理能力，并设计了多层次的网络结构以增强模型对复杂问题的理解能力。

🖼️ 关键图片

📊 实验亮点

在多个领域的实验中，PerceptUI达到了人类级别的真实感，能够有效推广到未见过的问题和角色。与传统方法相比，其评估结果的准确性和适用性显著提升，展现出强大的群体级响应分布能力。

🎯 应用场景

PerceptUI框架在产品开发、用户体验设计和市场研究等领域具有广泛的应用潜力。通过提供更快速和准确的UI/UX评估，企业能够在早期阶段快速迭代产品设计，降低开发成本，并提升用户满意度。未来，该框架还可能扩展到其他领域，如教育和医疗，进一步推动人机交互的研究与应用。

📄 摘要（原文）

User interface (UI) and user experience (UX) evaluation is central to product development, yet reliable feedback still relies on recruiting human participants or running online A/B tests, making early-stage iteration slow and costly. In light of this, recent work has explored Multimodal Large Language Models as proxy evaluators. However, existing approaches either produce surface-level critiques or a judgment that reflects the model's own biases rather than the genuine response of a particular user. We introduce PerceptUI, a framework for persona-conditioned UI/UX evaluation that predicts how a specific user would answer interface-related questions and produces natural-language rationales. PerceptUI is trained in two stages: (i) contrastive reflection fine-tuning distills teacher-generated rationales by extracting lessons from human decisions, and (ii) a reflective prompt-evolution step from the model's own failure traces. Across multiple domains and datasets, PerceptUI achieves human-level realism, generalizes to unseen questions and personas, and yields population-level response distributions.

PerceptUI: LLM Agents as Human-Aligned Synthetic Users for UI/UX Evaluation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理