From Reviews to Requirements: Can LLMs Generate Human-Like User Stories?

📄 arXiv: 2603.28163v1 📥 PDF

作者: Shadman Sakib, Oishy Fatema Akhand, Tasnia Tasneem, Shohel Ahmed

分类: cs.CL

发布日期: 2026-03-30


💡 一句话要点

利用大型语言模型从用户评论生成高质量用户故事,提升软件需求工程效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 用户故事生成 软件需求工程 敏捷开发 应用商店评论

📋 核心要点

  1. 现有方法难以高效分析应用商店评论,无法生成可直接用于敏捷开发的、高质量用户故事。
  2. 利用大型语言模型,通过少量样本提示,直接从用户评论生成用户故事,降低人工成本。
  3. 实验表明,LLMs在生成流畅用户故事方面表现优异,但在独立性和独特性方面仍有提升空间。

📝 摘要(中文)

本文评估了大型语言模型(LLMs),如GPT-3.5 Turbo、Gemini 2.0 Flash和Mistral 7B Instruct,直接从原始应用商店评论生成可用用户故事的能力。研究使用了包含1000+健康应用评论的Mini-BAR数据集,并测试了零样本、单样本和双样本提示方法。通过人工评估(使用RUST框架)和在UStAI上微调的RoBERTa分类器,评估生成的用户故事的质量。结果表明,LLMs在编写流畅、格式良好的用户故事方面可以与人类相媲美甚至超越人类,尤其是在使用少量样本提示时。然而,它们在生成独立和独特的用户故事方面仍然存在困难,而这对于构建强大的敏捷backlog至关重要。总的来说,研究结果表明LLMs可以可靠地将非结构化的应用评论转化为可操作的软件需求,为开发者提供清晰的指导,将用户反馈转化为有意义的改进。

🔬 方法详解

问题定义:论文旨在解决软件需求工程中,如何高效地从海量、非结构化的用户评论中提取有价值的需求信息,并将其转化为可直接用于敏捷开发的用户故事的问题。现有方法,如传统自然语言处理技术,在处理用户评论这种非正式文本时表现不佳,且难以生成符合敏捷开发规范的用户故事,需要大量人工干预。

核心思路:论文的核心思路是利用大型语言模型(LLMs)强大的文本生成和理解能力,通过适当的提示工程(Prompt Engineering),直接将原始用户评论转化为结构化的用户故事。这种方法旨在减少人工干预,提高需求分析的效率和质量。

技术框架:研究的技术框架主要包括以下几个步骤:1) 数据准备:使用Mini-BAR数据集,包含1000+健康应用评论。2) 模型选择:选择GPT-3.5 Turbo、Gemini 2.0 Flash和Mistral 7B Instruct等LLMs。3) 提示工程:设计零样本、单样本和双样本提示,引导LLMs生成用户故事。4) 评估:使用RUST框架进行人工评估,并使用在UStAI数据集上微调的RoBERTa分类器进行自动评估。

关键创新:论文的关键创新在于探索了LLMs在用户故事生成任务中的潜力,并验证了其可行性。与传统方法相比,LLMs能够更好地理解用户评论的语义,并生成更流畅、更符合敏捷开发规范的用户故事。此外,论文还探索了不同提示策略对生成结果的影响。

关键设计:论文的关键设计包括:1) 提示模板的设计,包括零样本、单样本和双样本提示,以探索不同提示策略的效果。2) 评估指标的选择,包括RUST框架(人工评估)和在UStAI数据集上微调的RoBERTa分类器(自动评估),以全面评估生成的用户故事的质量。3) 模型参数设置:论文中LLM的具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLMs在生成流畅、格式良好的用户故事方面可以与人类相媲美甚至超越人类,尤其是在使用少量样本提示时。人工评估和自动评估结果均支持这一结论。但LLMs在生成独立和独特的用户故事方面仍有提升空间。

🎯 应用场景

该研究成果可应用于软件开发的需求工程阶段,帮助开发者快速从用户反馈中提取需求,并生成用户故事,从而加速软件迭代和改进。此外,该方法还可应用于其他领域,如产品设计、市场调研等,以自动化地分析用户反馈并提取有价值的信息。

📄 摘要(原文)

App store reviews provide a constant flow of real user feedback that can help improve software requirements. However, these reviews are often messy, informal, and difficult to analyze manually at scale. Although automated techniques exist, many do not perform well when replicated and often fail to produce clean, backlog-ready user stories for agile projects. In this study, we evaluate how well large language models (LLMs) such as GPT-3.5 Turbo, Gemini 2.0 Flash, and Mistral 7B Instruct can generate usable user stories directly from raw app reviews. Using the Mini-BAR dataset of 1,000+ health app reviews, we tested zero-shot, one-shot, and two-shot prompting methods. We evaluated the generated user stories using both human judgment (via the RUST framework) and a RoBERTa classifier fine-tuned on UStAI to assess their overall quality. Our results show that LLMs can match or even outperform humans in writing fluent, well-formatted user stories, especially when few-shot prompts are used. However, they still struggle to produce independent and unique user stories, which are essential for building a strong agile backlog. Overall, our findings show how LLMs can reliably turn unstructured app reviews into actionable software requirements, providing developers with clear guidance to turn user feedback into meaningful improvements.