Human-Centered Evaluation of an LLM-Based Process Modeling Copilot: A Mixed-Methods Study with Domain Experts

📄 arXiv: 2603.12895v1 📥 PDF

作者: Chantale Lauer, Peter Pfeiffer, Nijat Mehdiyev

分类: cs.HC, cs.AI, cs.SE

发布日期: 2026-03-13

备注: Human-centered Evaluation and Auditing of Language Models Workshop

期刊: Conference on Human Factors in Computing Systems (CHI2026)


💡 一句话要点

人本评估LLM流程建模助手:领域专家混合方法研究

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM 业务流程建模 人本评估 BPMN 用户体验 信任度 混合方法研究

📋 核心要点

  1. 现有自动化框架评估BPMN模型质量时,忽略了信任、可用性等关键人为因素,导致评估结果不全面。
  2. 提出一种基于LLM的BPMN建模助手,旨在通过人本评估方法,弥补自动化评估的不足,提升用户体验。
  3. 通过焦点小组和问卷调查,对领域专家进行评估,揭示了可用性与信任度之间的矛盾,并识别了改进方向。

📝 摘要(中文)

本文研究将大型语言模型(LLM)集成到业务流程管理工具中,旨在使非专业人员也能进行业务流程模型和符号(BPMN)建模。虽然自动化框架可以评估语法和语义质量,但它们忽略了信任、可用性和专业一致性等人为因素。我们采用混合方法,通过焦点小组和标准化问卷,对五位流程建模专家评估了我们提出的基于LLM的BPMN助手解决方案。结果表明,可接受的感知可用性(平均CUQ得分:67.2/100)与显著较低的信任度(平均得分:48.8%)之间存在关键张力,其中可靠性被评为最关键的问题(M=1.8/5)。此外,我们还发现了输出质量问题、提示困难,以及LLM需要提出更深入的关于流程的澄清问题。我们设想了从领域专家支持到企业质量保证的五种用例。我们证明了以人为本的评估对于补充LLM建模代理的自动化基准测试的必要性。

🔬 方法详解

问题定义:论文旨在解决将大型语言模型应用于业务流程建模时,单纯依靠自动化评估方法无法全面衡量模型质量的问题。现有方法主要关注语法和语义的正确性,忽略了用户信任度、可用性以及模型与领域知识的对齐程度等重要的人为因素。这些因素直接影响了领域专家对LLM建模助手的接受度和使用意愿。

核心思路:论文的核心思路是通过人本评估方法,结合领域专家的反馈,全面评估基于LLM的BPMN建模助手的性能。这种方法强调从用户的角度出发,关注用户体验、信任度以及模型在实际应用中的有效性。通过混合方法研究,可以识别自动化评估无法发现的问题,并为LLM建模助手的改进提供指导。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 设计基于LLM的BPMN建模助手;2) 招募领域专家参与评估;3) 采用混合方法进行评估,包括焦点小组讨论和标准化问卷调查;4) 分析评估结果,识别问题和改进方向;5) 提出改进建议,并展望未来应用场景。其中,焦点小组讨论用于收集专家对LLM建模助手的定性反馈,问卷调查用于量化评估用户体验和信任度。

关键创新:论文的关键创新在于强调了人本评估在LLM建模助手开发中的重要性。与传统的自动化评估方法相比,人本评估能够更全面地衡量模型质量,并为模型的改进提供更具针对性的指导。此外,该研究还通过混合方法,将定性反馈和定量数据相结合,从而更深入地了解用户需求和痛点。

关键设计:研究中使用的标准化问卷包括CUQ(Computer Usability Questionnaire)和信任度量表。CUQ用于评估LLM建模助手的可用性,信任度量表用于评估用户对LLM建模助手的信任程度。此外,焦点小组讨论的设计也至关重要,需要精心设计讨论议题,引导专家深入思考并分享他们的看法。研究中还关注了LLM的提示工程,探索如何设计有效的提示,以提高LLM的输出质量。

🖼️ 关键图片

fig_0

📊 实验亮点

研究结果表明,LLM建模助手在可用性方面表现尚可(平均CUQ得分67.2/100),但在信任度方面表现较差(平均得分48.8%),尤其是在可靠性方面(M=1.8/5)。这表明,虽然LLM可以生成看似合理的BPMN模型,但领域专家对其输出的正确性和可靠性存在担忧。研究还发现,LLM在处理复杂流程时,需要提出更深入的澄清问题,以确保输出模型的准确性。

🎯 应用场景

该研究成果可应用于各种业务流程建模场景,例如流程优化、自动化流程设计、企业知识库构建等。通过提升LLM建模助手的可用性和用户信任度,可以降低业务流程建模的门槛,使更多非专业人员也能参与到流程改进中来。未来,该研究还可以推广到其他领域,例如软件工程、数据分析等,以提升AI工具的可用性和用户体验。

📄 摘要(原文)

Integrating Large Language Models (LLMs) into business process management tools promises to democratize Business Process Model and Notation (BPMN) modeling for non-experts. While automated frameworks assess syntactic and semantic quality, they miss human factors like trust, usability, and professional alignment. We conducted a mixed-methods evaluation of our proposed solution, an LLM-powered BPMN copilot, with five process modeling experts using focus groups and standardized questionnaires. Our findings reveal a critical tension between acceptable perceived usability (mean CUQ score: 67.2/100) and notably lower trust (mean score: 48.8\%), with reliability rated as the most critical concern (M=1.8/5). Furthermore, we identified output-quality issues, prompting difficulties, and a need for the LLM to ask more in-depth clarifying questions about the process. We envision five use cases ranging from domain-expert support to enterprise quality assurance. We demonstrate the necessity of human-centered evaluation complementing automated benchmarking for LLM modeling agents.