Qualitative Evaluation of LLM-Designed GUI

📄 arXiv: 2601.22759v1 📥 PDF

作者: Bartosz Sawicki, Tomasz Les, Dariusz Parzych, Aleksandra Wycisk-Ficek, Pawel Trebacz, Pawel Zawadzki

分类: cs.HC, cs.AI, cs.SE

发布日期: 2026-01-30

备注: 12 pages, presented on conference PP-RAI 2025, Katowice-Poland


💡 一句话要点

评估LLM设计的GUI:可用性、可定制性与用户需求匹配度分析

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 图形用户界面 GUI设计 可用性评估 可访问性 用户定制 人机交互

📋 核心要点

  1. 现有GUI设计方法耗时且依赖人工,LLM在自动化GUI设计方面展现潜力,但其生成界面的质量和用户适应性有待评估。
  2. 本研究利用前沿LLM为不同界面生成原型,并进行专家评估和用户测试,考察其可用性、可访问性和用户定制能力。
  3. 实验表明LLM擅长结构化布局,但在可访问性、交互功能和深度用户理解方面存在不足,需人工干预以提升用户体验。

📝 摘要(中文)

随着生成式人工智能的发展,大型语言模型(LLM)正被探索用于自动化的图形用户界面(GUI)设计。本研究通过分析LLM生成界面满足不同用户需求的能力,来考察其可用性和适应性。实验使用了2025年1月的三个最先进的模型(OpenAI GPT o3-mini-high、DeepSeek R1和Anthropic Claude 3.5 Sonnet),为三种界面类型生成模型:聊天系统、技术团队面板和管理仪表板。专家评估表明,LLM在创建结构化布局方面有效,但在满足可访问性标准和提供交互功能方面面临挑战。进一步的测试表明,LLM可以部分地为不同的用户角色定制界面,但缺乏更深层次的上下文理解。结果表明,LLM是UI早期原型设计的有前途的工具,但人为干预对于确保可用性、可访问性和用户满意度仍然至关重要。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLM)在自动生成图形用户界面(GUI)方面的能力,特别是关注其生成的GUI的可用性、可访问性以及对不同用户需求的适应性。现有GUI设计方法通常耗时且依赖人工,而LLM虽然展现出自动化设计的潜力,但其生成界面的质量和用户适应性仍是未知数。现有方法缺乏对LLM生成GUI的系统性评估,无法确定其在实际应用中的价值。

核心思路:论文的核心思路是利用多个先进的LLM,针对不同类型的界面(聊天系统、团队面板、管理仪表板)生成GUI原型,然后通过专家评估和用户测试,从可用性、可访问性和用户定制三个维度对这些原型进行评估。通过这种方式,可以系统地了解LLM在GUI设计方面的优势和不足。

技术框架:整体流程包括以下几个阶段:1) 选择三个先进的LLM(OpenAI GPT o3-mini-high、DeepSeek R1和Anthropic Claude 3.5 Sonnet);2) 针对三种界面类型(聊天系统、技术团队面板和管理仪表板)生成GUI原型;3) 邀请专家对生成的原型进行评估,评估指标包括可用性和可访问性;4) 进行用户测试,评估LLM生成界面对不同用户角色的适应性。

关键创新:论文的关键创新在于对LLM生成GUI的质量进行了全面的评估,不仅关注了界面的结构化布局,还关注了可访问性和用户定制能力。此外,论文还使用了多个先进的LLM和多种界面类型,从而使评估结果更具代表性。

关键设计:论文的关键设计包括:1) 选择具有代表性的界面类型,以覆盖不同的应用场景;2) 采用专家评估和用户测试相结合的方法,以获得更全面的评估结果;3) 使用多个LLM,以减少模型偏差的影响。具体的参数设置和损失函数等技术细节在论文中未详细描述,属于LLM本身的内部实现。

📊 实验亮点

实验结果表明,LLM在创建结构化布局方面表现出色,但在满足可访问性标准和提供交互功能方面存在挑战。LLM能够部分地为不同的用户角色定制界面,但缺乏对用户上下文的深入理解。这些发现为LLM在UI设计领域的应用提供了重要的参考依据。

🎯 应用场景

该研究成果可应用于自动化UI原型设计、辅助UI设计师快速生成界面草图、以及为不同用户群体定制个性化界面。通过LLM自动生成GUI,可以显著降低UI设计的成本和时间,提高开发效率。未来,结合用户反馈和迭代优化,LLM有望成为UI设计流程中不可或缺的工具。

📄 摘要(原文)

As generative artificial intelligence advances, Large Language Models (LLMs) are being explored for automated graphical user interface (GUI) design. This study investigates the usability and adaptability of LLM-generated interfaces by analysing their ability to meet diverse user needs. The experiments included utilization of three state-of-the-art models from January 2025 (OpenAI GPT o3-mini-high, DeepSeek R1, and Anthropic Claude 3.5 Sonnet) generating mockups for three interface types: a chat system, a technical team panel, and a manager dashboard. Expert evaluations revealed that while LLMs are effective at creating structured layouts, they face challenges in meeting accessibility standards and providing interactive functionality. Further testing showed that LLMs could partially tailor interfaces for different user personas but lacked deeper contextual understanding. The results suggest that while LLMs are promising tools for early-stage UI prototyping, human intervention remains critical to ensure usability, accessibility, and user satisfaction.