When "Better" Prompts Hurt: Evaluation-Driven Iteration for LLM Applications

作者: Daniel Commey

分类: cs.CL, cs.AI, cs.IR, cs.SE

发布日期: 2026-01-29

💡 一句话要点

提出基于评估驱动的LLM应用迭代工作流，解决提示工程中的trade-off问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 LLM应用评估 提示工程 评估驱动迭代 最小可行评估套件

📋 核心要点

现有LLM应用评估面临输出随机性、高维度和对提示敏感等挑战，传统软件测试方法难以适用。
论文提出评估驱动的迭代工作流（定义、测试、诊断、修复），以及最小可行评估套件（MVES），用于指导LLM应用开发。
实验表明，通用“改进”的提示可能导致性能trade-off，强调评估驱动的迭代和校准的重要性。

📝 摘要（中文）

评估大型语言模型（LLM）应用与传统软件测试不同，因为其输出具有随机性、高维度以及对提示和模型变化敏感。本文提出了一种评估驱动的工作流程——定义、测试、诊断、修复——将这些挑战转化为可重复的工程循环。我们介绍了一种最小可行评估套件（MVES），它是一套分层的推荐评估组件，适用于（i）通用LLM应用，（ii）检索增强生成（RAG），以及（iii）代理工具使用工作流程。我们还综合了常见的评估方法（自动化检查、人工评估和LLM作为评判者），并讨论了已知的评判失败模式。在可复现的本地实验中（Ollama; Llama 3 8B Instruct和Qwen 2.5 7B Instruct），我们观察到，一个通用的“改进”提示模板可能会权衡不同的行为：在我们的小型结构化套件上，当用通用规则替换特定任务的提示时，Llama 3的提取通过率从100%降至90%，RAG合规性从93.3%降至80%，而指令遵循能力有所提高。这些发现促使我们进行评估驱动的提示迭代和仔细的声明校准，而不是通用的提示配方。

🔬 方法详解

问题定义：LLM应用的评估与传统软件测试不同，因为LLM的输出具有随机性、高维度，并且对提示和模型的变化非常敏感。现有方法缺乏系统性的评估流程，难以发现和解决提示工程中的trade-off问题，例如，一个“改进”的提示可能在提高指令遵循的同时，降低信息提取的准确性。

核心思路：论文的核心思路是建立一个评估驱动的迭代工作流，通过定义、测试、诊断和修复四个步骤，将LLM应用的评估过程转化为一个可重复的工程循环。通过持续的评估，可以及时发现提示工程中的问题，并进行针对性的优化。

技术框架：论文提出的评估驱动工作流包含以下四个主要阶段： 1. 定义（Define）：明确LLM应用的目标和评估指标。 2. 测试（Test）：使用最小可行评估套件（MVES）对LLM应用进行测试，MVES包含针对通用LLM应用、RAG和Agentic Tool-Use工作流的评估组件。 3. 诊断（Diagnose）：分析测试结果，找出LLM应用的性能瓶颈和问题所在。 4. 修复（Fix）：根据诊断结果，调整提示、模型或其他参数，并重新进行测试，直到达到预期的性能指标。

关键创新：论文的关键创新在于提出了一个系统性的评估驱动的LLM应用迭代工作流，并提供了一个最小可行评估套件（MVES），用于指导LLM应用的开发和优化。与以往依赖经验或直觉的提示工程方法不同，该方法强调通过持续的评估来发现和解决问题，从而提高LLM应用的性能和可靠性。

关键设计：MVES包含针对不同类型LLM应用的评估组件，例如，对于RAG应用，MVES包含对检索质量、生成内容的相关性和忠实度的评估。论文还讨论了常见的评估方法，包括自动化检查、人工评估和LLM作为评判者，并分析了LLM作为评判者可能出现的失败模式。此外，论文强调了在提示工程中需要进行仔细的声明校准，以避免过度自信或不准确的输出。

📊 实验亮点

实验结果表明，通用的“改进”提示模板可能会导致性能trade-off。例如，在使用Llama 3时，用通用规则替换特定任务的提示后，提取通过率从100%降至90%，RAG合规性从93.3%降至80%，虽然指令遵循能力有所提高。这些结果强调了评估驱动的提示迭代的重要性。

🎯 应用场景

该研究成果可应用于各种基于LLM的应用开发场景，例如智能客服、文档摘要、代码生成等。通过采用评估驱动的迭代工作流和MVES，开发者可以更有效地优化LLM应用的性能，提高用户满意度，并降低开发成本。该方法还有助于提高LLM应用的可靠性和可解释性，促进LLM技术在各行业的广泛应用。

📄 摘要（原文）

Evaluating Large Language Model (LLM) applications differs from traditional software testing because outputs are stochastic, high-dimensional, and sensitive to prompt and model changes. We present an evaluation-driven workflow - Define, Test, Diagnose, Fix - that turns these challenges into a repeatable engineering loop. We introduce the Minimum Viable Evaluation Suite (MVES), a tiered set of recommended evaluation components for (i) general LLM applications, (ii) retrieval-augmented generation (RAG), and (iii) agentic tool-use workflows. We also synthesize common evaluation methods (automated checks, human rubrics, and LLM-as-judge) and discuss known judge failure modes. In reproducible local experiments (Ollama; Llama 3 8B Instruct and Qwen 2.5 7B Instruct), we observe that a generic "improved" prompt template can trade off behaviors: on our small structured suites, extraction pass rate decreased from 100% to 90% and RAG compliance from 93.3% to 80% for Llama 3 when replacing task-specific prompts with generic rules, while instruction-following improved. These findings motivate evaluation-driven prompt iteration and careful claim calibration rather than universal prompt recipes. All test suites, harnesses, and results are included for reproducibility.

When "Better" Prompts Hurt: Evaluation-Driven Iteration for LLM Applications

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理