Prompt-Driven Code Summarization: A Systematic Literature Review
作者: Afia Farjana, Zaiyu Cheng, Antonio Mastropaolo
分类: cs.SE, cs.LG
发布日期: 2026-04-16
备注: 42 pages, 9 figures, 10 tables. Systematic Literature Review. This work is currently under review at ACM TOSEM
💡 一句话要点
Prompt驱动的代码摘要生成综述:系统性分析Prompt策略对LLM性能的影响
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 代码摘要生成 大型语言模型 Prompt工程 软件文档 系统性文献综述
📋 核心要点
- 现有代码文档生成方法效率低且质量参差不齐,难以满足软件开发的需求。
- 该研究通过系统性文献综述,分析不同Prompt策略对LLM代码摘要生成性能的影响。
- 该综述旨在整合现有证据,分类Prompt范式,评估有效性,并识别研究差距,指导未来研究。
📝 摘要(中文)
软件文档对于程序理解、开发者入门、代码审查和长期维护至关重要。然而,手动编写高质量的文档既耗时又容易产生不完整或不一致的结果。大型语言模型(LLM)通过自动从源代码生成自然语言描述,为这个问题提供了一个有希望的解决方案,可以帮助开发者更有效地理解代码,促进维护,并支持诸如缺陷定位和提交消息生成等下游活动。但是,LLM在文档任务中的有效性关键取决于如何提示它们。适当构建的指令可以显著提高模型性能,使得提示工程(设计输入提示以指导模型行为)成为基于LLM的软件工程中的一项基础技术。诸如少样本提示、思维链推理、检索增强生成和零样本学习等方法在代码摘要生成方面显示出潜力,但当前的研究仍然分散。对于哪种提示策略效果最好,适用于哪些模型以及在什么条件下效果最好,人们的理解有限。此外,评估实践差异很大,大多数研究依赖于基于重叠的指标,这些指标可能无法捕捉语义质量。本系统性文献综述整合了现有证据,对提示范式进行分类,检查其有效性,并确定差距,以指导未来的研究和实际应用。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在代码摘要生成任务中,由于缺乏系统性的Prompt策略指导,导致模型性能不稳定和评估标准不统一的问题。现有方法主要依赖人工编写文档,效率低下且质量难以保证;而直接应用LLM进行代码摘要生成,效果又很大程度上取决于Prompt的设计,缺乏通用性和可解释性。
核心思路:论文的核心思路是通过系统性的文献综述,对现有的Prompt驱动的代码摘要生成方法进行梳理和分类,分析不同Prompt策略的优缺点,并探讨其适用场景和影响因素。通过整合现有研究成果,为Prompt工程在代码摘要生成任务中的应用提供指导。
技术框架:该研究采用系统性文献综述的方法,主要包括以下几个阶段: 1. 确定研究问题:明确Prompt策略对LLM代码摘要生成性能的影响。 2. 文献检索:通过关键词搜索相关学术论文。 3. 文献筛选:根据预设的标准筛选出符合研究主题的论文。 4. 数据提取:从筛选出的论文中提取关键信息,如Prompt策略、模型、评估指标等。 5. 数据分析:对提取的数据进行分类、比较和分析,总结不同Prompt策略的优缺点和适用场景。 6. 结果呈现:撰写综述报告,总结研究发现,并提出未来研究方向。
关键创新:该研究的关键创新在于对Prompt驱动的代码摘要生成方法进行了系统性的梳理和分类,弥补了现有研究的碎片化和缺乏统一标准的不足。通过分析不同Prompt策略的优缺点和适用场景,为Prompt工程在代码摘要生成任务中的应用提供了理论基础和实践指导。
关键设计:该研究的关键设计在于文献筛选标准和数据提取框架。文献筛选标准需要确保筛选出的论文具有代表性和高质量,能够反映Prompt驱动的代码摘要生成领域的最新进展。数据提取框架需要涵盖Prompt策略、模型、评估指标等关键信息,以便进行全面的分析和比较。具体的筛选标准和提取框架在论文中应该有详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
该综述总结了现有Prompt驱动的代码摘要生成方法,并对不同Prompt策略进行了分类和比较。研究结果表明,Prompt策略的选择对LLM的性能有显著影响,例如,Few-shot prompting和Chain-of-thought reasoning等策略在某些情况下可以显著提高代码摘要的质量。此外,该综述还指出了现有评估指标的局限性,并建议未来研究应关注语义质量的评估。
🎯 应用场景
该研究成果可应用于自动化软件文档生成、代码理解辅助工具、代码审查流程优化等领域。通过选择合适的Prompt策略,可以提高LLM生成代码摘要的质量和效率,降低软件开发和维护成本,提升软件质量。未来,该研究可以进一步推动Prompt工程在软件工程领域的应用,促进智能化软件开发工具的研发。
📄 摘要(原文)
Software documentation is essential for program comprehension, developer onboarding, code review, and long-term maintenance. Yet producing quality documentation manually is time-consuming and frequently yields incomplete or inconsistent results. Large language models (LLMs) offer a promising solution by automatically generating natural language descriptions from source code, helping developers understand code more efficiently, facilitating maintenance, and supporting downstream activities such as defect localization and commit message generation. However, the effectiveness of LLMs in documentation tasks critically depends on how they are prompted. Properly structured instructions can substantially improve model performance, making prompt engineering-the design of input prompts to guide model behavior-a foundational technique in LLM-based software engineering. Approaches such as few-shot prompting, chain-of-thought reasoning, retrieval-augmented generation, and zero-shot learning show promise for code summarization, yet current research remains fragmented. There is limited understanding of which prompting strategies work best, for which models, and under what conditions. Moreover, evaluation practices vary widely, with most studies relying on overlap-based metrics that may not capture semantic quality. This systematic literature review consolidates existing evidence, categorizes prompting paradigms, examines their effectiveness, and identifies gaps to guide future research and practical adoption.