A Taxonomy of Prompt Defects in LLM Systems
作者: Haoye Tian, Chong Wang, BoYang Yang, Lyuye Zhang, Yang Liu
分类: cs.SE, cs.AI, cs.CL, cs.PL
发布日期: 2025-09-17
💡 一句话要点
构建LLM系统提示词缺陷分类体系,提升LLM应用可靠性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 提示词工程 缺陷分类 软件工程 LLM系统 可靠性 自动化护栏
📋 核心要点
- 现有LLM应用中,提示词设计缺乏系统性方法,容易出现各种缺陷,导致LLM行为不可靠。
- 论文提出一种提示词缺陷分类体系,从六个维度对缺陷进行细粒度划分,并分析其根本原因。
- 论文总结了针对每种缺陷的缓解策略,并构建了缺陷、影响和补救措施之间的关联,为LLM应用开发提供指导。
📝 摘要(中文)
大型语言模型(LLMs)已成为现代软件的关键组成部分,而提示词则充当了其事实上的编程接口。然而,提示词设计在很大程度上仍然是经验性的,微小的错误可能会演变成不可靠、不安全或低效的行为。本文首次对提示词缺陷进行了系统的调查和分类,这些缺陷是提示词未能从LLM中引出预期行为的常见方式。我们将缺陷组织成六个维度:(1)规范和意图,(2)输入和内容,(3)结构和格式,(4)上下文和记忆,(5)性能和效率,以及(6)可维护性和工程。每个维度都被细化为细粒度的子类型,并通过具体的例子和根本原因分析加以说明。基于软件工程原则,我们展示了这些缺陷如何在实际开发工作流程中出现,并检查它们的下游影响。对于每个子类型,我们提炼了缓解策略,涵盖了新兴的提示工程模式、自动化护栏、测试工具和评估框架。然后,我们将这些策略总结在一个主分类法中,该分类法将缺陷、影响和补救措施联系起来。最后,我们提出了开放的研究挑战,并呼吁采用严格的、面向工程的方法,以确保LLM驱动的系统在设计上是可靠的。
🔬 方法详解
问题定义:论文旨在解决LLM应用开发中提示词设计缺乏系统性方法,导致各种缺陷出现的问题。现有方法主要依赖经验,缺乏理论指导,容易产生不可靠、不安全或低效的LLM行为。这些缺陷可能源于提示词的规范、输入、结构、上下文、性能和可维护性等方面。
核心思路:论文的核心思路是构建一个全面的提示词缺陷分类体系,将常见的提示词错误进行归类和分析,并针对每种缺陷提供相应的缓解策略。通过系统化的方法,帮助开发者识别和避免提示词缺陷,从而提高LLM应用的可靠性和效率。
技术框架:论文构建的提示词缺陷分类体系包含六个主要维度:(1) 规范和意图,(2) 输入和内容,(3) 结构和格式,(4) 上下文和记忆,(5) 性能和效率,以及 (6) 可维护性和工程。每个维度又被细分为更具体的子类型。对于每个子类型,论文都提供了具体的例子、根本原因分析和缓解策略。最终,论文将这些信息整合到一个主分类法中,将缺陷、影响和补救措施联系起来。
关键创新:论文最重要的技术创新在于首次对LLM系统的提示词缺陷进行了系统性的分类和分析。与以往的研究不同,该论文不仅关注单个缺陷,而是构建了一个全面的分类体系,涵盖了提示词设计的各个方面。此外,论文还提出了针对每种缺陷的缓解策略,为LLM应用开发提供了实用的指导。
关键设计:论文的关键设计在于六个维度的划分以及每个维度下子类型的定义。这些划分和定义基于对大量实际案例的分析和总结,力求全面、准确地反映LLM应用中常见的提示词缺陷。此外,论文还强调了软件工程原则在提示词设计中的重要性,并提出了相应的工程化方法。
📊 实验亮点
论文构建了首个LLM系统提示词缺陷分类体系,涵盖六个维度,并针对每个缺陷提供了缓解策略。该体系基于软件工程原则,并结合实际案例进行分析,具有很强的实用性和指导意义。该研究为LLM应用开发提供了一种系统化的方法,有助于提高LLM应用的可靠性和效率。
🎯 应用场景
该研究成果可应用于各种基于LLM的软件系统开发,例如智能客服、内容生成、代码生成等。通过识别和避免提示词缺陷,可以提高LLM应用的可靠性、安全性、效率和可维护性,降低开发和维护成本,并提升用户体验。该研究为LLM应用开发提供了一种系统化的方法,具有重要的实际价值和未来影响。
📄 摘要(原文)
Large Language Models (LLMs) have become key components of modern software, with prompts acting as their de-facto programming interface. However, prompt design remains largely empirical and small mistakes can cascade into unreliable, insecure, or inefficient behavior. This paper presents the first systematic survey and taxonomy of prompt defects, recurring ways that prompts fail to elicit their intended behavior from LLMs. We organize defects along six dimensions: (1) Specification and Intent, (2) Input and Content, (3) Structure and Formatting, (4) Context and Memory, (5) Performance and Efficiency, and (6) Maintainability and Engineering. Each dimension is refined into fine-grained subtypes, illustrated with concrete examples and root cause analysis. Grounded in software engineering principles, we show how these defects surface in real development workflows and examine their downstream effects. For every subtype, we distill mitigation strategies that span emerging prompt engineering patterns, automated guardrails, testing harnesses, and evaluation frameworks. We then summarize these strategies in a master taxonomy that links defect, impact, and remedy. We conclude with open research challenges and a call for rigorous engineering-oriented methodologies to ensure that LLM-driven systems are dependable by design.