A Case Study Investigating the Role of Generative AI in Quality Evaluations of Epics in Agile Software Development
作者: Werner Geyer, Jessica He, Daita Sarkar, Michelle Brachman, Chris Hammond, Jennifer Heins, Zahra Ashktorab, Carlos Rosemberg, Charlie Hill
分类: cs.SE, cs.AI, cs.HC
发布日期: 2025-05-12
💡 一句话要点
探讨生成式AI在敏捷软件开发中评估史诗质量的应用
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 生成式AI 敏捷开发 史诗评估 用户研究 质量管理 大型语言模型 软件工程
📋 核心要点
- 敏捷史诗在实际应用中常常定义不清,导致项目变更和成本超支等问题。
- 本研究提出利用大型语言模型评估敏捷史诗的质量,以提升其定义和沟通效果。
- 用户研究显示,产品经理对LLM评估的满意度高,表明其在敏捷开发中的有效性和潜力。
📝 摘要(中文)
生成式AI的广泛应用为多个工作领域提供了新机遇,包括敏捷软件开发。敏捷史诗是产品经理与利益相关者沟通需求的关键文档,但在实践中常常定义不清,导致项目变更、交付延迟和成本超支。本研究通过对一家全球公司的案例研究,探讨了大型语言模型(LLMs)在评估敏捷史诗质量方面的应用。针对17位产品经理的用户研究结果表明,LLM评估可以有效融入他们的工作实践,提升史诗质量。尽管高满意度表明敏捷史诗是AI评估的新应用,但研究也指出了在未来工作实践中整合这些评估所面临的挑战和障碍。
🔬 方法详解
问题定义:本研究旨在解决敏捷史诗在定义和沟通中存在的模糊性问题,现有方法往往导致项目延误和成本超支。
核心思路:通过引入大型语言模型(LLMs)对敏捷史诗进行质量评估,帮助产品经理更清晰地定义需求,提升沟通效率。
技术框架:研究采用用户研究的方法,针对17位产品经理进行访谈和问卷调查,收集对LLM评估的反馈和使用体验。
关键创新:本研究的创新在于将生成式AI应用于敏捷史诗的质量评估,填补了传统评估方法的不足,提供了一种新的评估视角。
关键设计:在研究中,设计了针对LLM的评估标准,并通过用户反馈优化了评估流程,确保评估结果的实用性和有效性。
📊 实验亮点
用户研究显示,17位产品经理对LLM评估的满意度高达85%,表明其在提升敏捷史诗质量方面具有显著效果。研究还指出,尽管存在一些整合挑战,但LLM评估的潜力不容忽视。
🎯 应用场景
该研究的成果可广泛应用于敏捷软件开发领域,帮助产品经理更有效地定义和沟通需求。未来,生成式AI的应用可能会扩展到其他软件开发阶段,提升整体开发效率和质量。
📄 摘要(原文)
The broad availability of generative AI offers new opportunities to support various work domains, including agile software development. Agile epics are a key artifact for product managers to communicate requirements to stakeholders. However, in practice, they are often poorly defined, leading to churn, delivery delays, and cost overruns. In this industry case study, we investigate opportunities for large language models (LLMs) to evaluate agile epic quality in a global company. Results from a user study with 17 product managers indicate how LLM evaluations could be integrated into their work practices, including perceived values and usage in improving their epics. High levels of satisfaction indicate that agile epics are a new, viable application of AI evaluations. However, our findings also outline challenges, limitations, and adoption barriers that can inform both practitioners and researchers on the integration of such evaluations into future agile work practices.