A Case Study Investigating the Role of Generative AI in Quality Evaluations of Epics in Agile Software Development

作者: Werner Geyer, Jessica He, Daita Sarkar, Michelle Brachman, Chris Hammond, Jennifer Heins, Zahra Ashktorab, Carlos Rosemberg, Charlie Hill

分类: cs.SE, cs.AI, cs.HC

发布日期: 2025-05-12

💡 一句话要点

利用生成式AI评估敏捷史诗质量，提升软件开发效率

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 生成式AI 敏捷开发 史诗质量评估 大型语言模型 软件工程

📋 核心要点

敏捷史诗质量不高导致软件开发过程中的诸多问题，如需求变更频繁、交付延迟和成本超支。
利用大型语言模型（LLM）评估敏捷史诗的质量，为产品经理提供改进建议，优化开发流程。
用户研究表明，产品经理对LLM评估的满意度高，认为其有潜力融入现有工作流程，提升史诗质量。

📝 摘要（中文）

生成式AI的广泛应用为包括敏捷软件开发在内的各个领域提供了新的机遇。敏捷史诗是产品经理向利益相关者传达需求的关键工具。然而，在实践中，它们通常定义不明确，导致需求变更、交付延迟和成本超支。本工业案例研究调查了大型语言模型（LLM）在评估全球公司中敏捷史诗质量方面的机会。一项针对17位产品经理的用户研究结果表明，LLM评估如何融入他们的工作实践，包括感知价值和在改进史诗中的应用。高满意度表明敏捷史诗是AI评估的一个新的、可行的应用。然而，我们的研究结果也概述了挑战、局限性和采用障碍，这些可以为从业者和研究人员提供关于将此类评估整合到未来敏捷工作实践中的信息。

🔬 方法详解

问题定义：敏捷软件开发中，史诗（Epics）作为需求沟通的关键载体，其质量直接影响开发效率和项目成功率。然而，史诗定义不清晰、不完整是常见问题，导致需求理解偏差、频繁变更，最终造成交付延误和成本超支。现有方法缺乏有效、自动化的史诗质量评估手段，依赖人工审查，效率低下且主观性强。

核心思路：本研究的核心思路是利用大型语言模型（LLM）的自然语言理解和生成能力，对敏捷史诗进行自动化的质量评估。通过训练或微调LLM，使其能够识别史诗中存在的缺陷，例如不完整、不明确、不一致等，并给出改进建议。这种方法旨在提高评估效率，降低主观性，并为产品经理提供可操作的反馈。

技术框架：该研究采用案例研究方法，与一家全球性公司合作，探索LLM在敏捷史诗质量评估中的应用。整体流程包括：1) 收集真实世界的敏捷史诗数据；2) 选择合适的LLM模型（具体模型未知）；3) 设计评估指标，例如完整性、清晰度、一致性等；4) 使用收集的数据训练或微调LLM，使其能够根据评估指标对史诗进行评分和给出反馈；5) 进行用户研究，邀请产品经理使用LLM评估工具，并收集他们的反馈。

关键创新：该研究的关键创新在于将生成式AI应用于敏捷软件开发中的史诗质量评估。与传统的人工审查方法相比，LLM评估具有自动化、高效、客观的优势。此外，LLM还可以生成改进建议，帮助产品经理提升史诗质量。该研究探索了LLM在软件工程领域的潜在应用，并为未来的研究提供了新的方向。

关键设计：论文中没有详细说明LLM的具体选择、训练方法、评估指标和用户界面设计等技术细节，这些是未知信息。未来的研究可以进一步探索不同的LLM模型、训练策略和评估指标，以提高评估的准确性和实用性。用户界面的设计也需要考虑产品经理的使用习惯和需求，提供友好的交互体验。

🖼️ 关键图片

📊 实验亮点

该研究通过用户研究表明，产品经理对使用LLM评估敏捷史诗质量的满意度较高，认为其具有潜在价值，可以帮助他们改进史诗。虽然论文中没有提供具体的性能数据，但用户反馈表明LLM评估在实际应用中具有可行性。该研究为生成式AI在软件工程领域的应用提供了有价值的案例。

🎯 应用场景

该研究成果可应用于敏捷软件开发流程中，帮助产品经理快速评估和改进史诗质量，减少需求变更和交付延误，提高软件开发效率和质量。此外，该方法还可以扩展到其他软件工程文档的质量评估，例如用户故事、需求规格说明书等。未来，可以探索将LLM评估工具集成到现有的敏捷开发平台中，实现自动化、智能化的质量管理。

📄 摘要（原文）

The broad availability of generative AI offers new opportunities to support various work domains, including agile software development. Agile epics are a key artifact for product managers to communicate requirements to stakeholders. However, in practice, they are often poorly defined, leading to churn, delivery delays, and cost overruns. In this industry case study, we investigate opportunities for large language models (LLMs) to evaluate agile epic quality in a global company. Results from a user study with 17 product managers indicate how LLM evaluations could be integrated into their work practices, including perceived values and usage in improving their epics. High levels of satisfaction indicate that agile epics are a new, viable application of AI evaluations. However, our findings also outline challenges, limitations, and adoption barriers that can inform both practitioners and researchers on the integration of such evaluations into future agile work practices.

A Case Study Investigating the Role of Generative AI in Quality Evaluations of Epics in Agile Software Development

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理