Human-Centered Evaluation of an LLM-Based Process Modeling Copilot: A Mixed-Methods Study with Domain Experts

作者: Chantale Lauer, Peter Pfeiffer, Nijat Mehdiyev

分类: cs.HC, cs.AI, cs.SE

发布日期: 2026-03-13

备注: Human-centered Evaluation and Auditing of Language Models Workshop

期刊: Conference on Human Factors in Computing Systems (CHI2026)

💡 一句话要点

人本评估LLM流程建模助手：领域专家混合方法研究

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM 业务流程建模 人本评估 BPMN 用户体验 信任度 混合方法研究

📋 核心要点

现有自动化框架评估BPMN模型质量时，忽略了信任、可用性等关键人为因素，导致评估结果不全面。
提出一种基于LLM的BPMN建模助手，旨在通过人本评估方法，弥补自动化评估的不足，提升用户体验。
通过焦点小组和问卷调查，对领域专家进行评估，揭示了可用性与信任度之间的矛盾，并识别了改进方向。

📝 摘要（中文）

本文研究将大型语言模型（LLM）集成到业务流程管理工具中，旨在使非专业人员也能进行业务流程模型和符号（BPMN）建模。虽然自动化框架可以评估语法和语义质量，但它们忽略了信任、可用性和专业一致性等人为因素。我们采用混合方法，通过焦点小组和标准化问卷，对五位流程建模专家评估了我们提出的基于LLM的BPMN助手解决方案。结果表明，可接受的感知可用性（平均CUQ得分：67.2/100）与显著较低的信任度（平均得分：48.8%）之间存在关键张力，其中可靠性被评为最关键的问题（M=1.8/5）。此外，我们还发现了输出质量问题、提示困难，以及LLM需要提出更深入的关于流程的澄清问题。我们设想了从领域专家支持到企业质量保证的五种用例。我们证明了以人为本的评估对于补充LLM建模代理的自动化基准测试的必要性。

🔬 方法详解

问题定义：论文旨在解决将大型语言模型应用于业务流程建模时，单纯依靠自动化评估方法无法全面衡量模型质量的问题。现有方法主要关注语法和语义的正确性，忽略了用户信任度、可用性以及模型与领域知识的对齐程度等重要的人为因素。这些因素直接影响了领域专家对LLM建模助手的接受度和使用意愿。

核心思路：论文的核心思路是通过人本评估方法，结合领域专家的反馈，全面评估基于LLM的BPMN建模助手的性能。这种方法强调从用户的角度出发，关注用户体验、信任度以及模型在实际应用中的有效性。通过混合方法研究，可以识别自动化评估无法发现的问题，并为LLM建模助手的改进提供指导。

技术框架：该研究的技术框架主要包括以下几个阶段：1) 设计基于LLM的BPMN建模助手；2) 招募领域专家参与评估；3) 采用混合方法进行评估，包括焦点小组讨论和标准化问卷调查；4) 分析评估结果，识别问题和改进方向；5) 提出改进建议，并展望未来应用场景。其中，焦点小组讨论用于收集专家对LLM建模助手的定性反馈，问卷调查用于量化评估用户体验和信任度。

关键创新：论文的关键创新在于强调了人本评估在LLM建模助手开发中的重要性。与传统的自动化评估方法相比，人本评估能够更全面地衡量模型质量，并为模型的改进提供更具针对性的指导。此外，该研究还通过混合方法，将定性反馈和定量数据相结合，从而更深入地了解用户需求和痛点。

关键设计：研究中使用的标准化问卷包括CUQ（Computer Usability Questionnaire）和信任度量表。CUQ用于评估LLM建模助手的可用性，信任度量表用于评估用户对LLM建模助手的信任程度。此外，焦点小组讨论的设计也至关重要，需要精心设计讨论议题，引导专家深入思考并分享他们的看法。研究中还关注了LLM的提示工程，探索如何设计有效的提示，以提高LLM的输出质量。

🖼️ 关键图片

📊 实验亮点

研究结果表明，LLM建模助手在可用性方面表现尚可（平均CUQ得分67.2/100），但在信任度方面表现较差（平均得分48.8%），尤其是在可靠性方面（M=1.8/5）。这表明，虽然LLM可以生成看似合理的BPMN模型，但领域专家对其输出的正确性和可靠性存在担忧。研究还发现，LLM在处理复杂流程时，需要提出更深入的澄清问题，以确保输出模型的准确性。

🎯 应用场景

该研究成果可应用于各种业务流程建模场景，例如流程优化、自动化流程设计、企业知识库构建等。通过提升LLM建模助手的可用性和用户信任度，可以降低业务流程建模的门槛，使更多非专业人员也能参与到流程改进中来。未来，该研究还可以推广到其他领域，例如软件工程、数据分析等，以提升AI工具的可用性和用户体验。

📄 摘要（原文）

Integrating Large Language Models (LLMs) into business process management tools promises to democratize Business Process Model and Notation (BPMN) modeling for non-experts. While automated frameworks assess syntactic and semantic quality, they miss human factors like trust, usability, and professional alignment. We conducted a mixed-methods evaluation of our proposed solution, an LLM-powered BPMN copilot, with five process modeling experts using focus groups and standardized questionnaires. Our findings reveal a critical tension between acceptable perceived usability (mean CUQ score: 67.2/100) and notably lower trust (mean score: 48.8\%), with reliability rated as the most critical concern (M=1.8/5). Furthermore, we identified output-quality issues, prompting difficulties, and a need for the LLM to ask more in-depth clarifying questions about the process. We envision five use cases ranging from domain-expert support to enterprise quality assurance. We demonstrate the necessity of human-centered evaluation complementing automated benchmarking for LLM modeling agents.

Human-Centered Evaluation of an LLM-Based Process Modeling Copilot: A Mixed-Methods Study with Domain Experts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理