Tournament of Prompts: Evolving LLM Instructions Through Structured Debates and Elo Ratings

作者: Anirudh Nair, Adi Banerjee, Laurent Mombaerts, Matthew Hagen, Tarik Borogovac

分类: cs.AI, cs.NE

发布日期: 2025-05-30 (更新: 2025-07-22)

💡 一句话要点

提出DEEVO：通过辩论驱动的进化算法优化LLM提示，无需预定义指标。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 提示工程 大型语言模型 进化算法 辩论驱动 Elo评级

📋 核心要点

现有提示优化方法依赖于明确的任务特定数值适应度函数或通用模板，难以处理涉及主观质量评估的复杂任务。
DEEVO通过辩论驱动的评估和基于Elo的选择来指导提示进化，探索离散提示空间，同时保持语义连贯性。
实验表明，DEEVO在开放式和封闭式任务上均优于手动提示工程和其他优化方法，且无需ground truth反馈。

📝 摘要（中文）

提示工程是充分利用大型语言模型（LLMs）解决复杂任务的关键瓶颈，因为它需要专业知识、大量的试错和人工干预。对于涉及主观质量评估的任务，定义明确的优化目标存在根本性问题，这一挑战尤为突出。现有的自动提示优化方法在这些场景中失效，因为它们通常需要明确的任务特定数值适应度函数，或者依赖于无法捕捉复杂用例细微要求的通用模板。我们引入DEEVO（DEbate-driven EVOlutionary prompt optimization），这是一种新颖的框架，通过基于辩论的评估和基于Elo的选择来指导提示进化。与之前的工作相反，DEEVO的方法能够探索离散的提示空间，同时通过智能交叉和战略突变操作来保持语义连贯性，这些操作结合了基于辩论反馈的成功和不成功提示的元素，基于已识别的优势而不是任意拼接。使用Elo评级作为适应度代理，DEEVO同时驱动改进并保持提示群体中的宝贵多样性。实验结果表明，DEEVO在开放式任务和封闭式任务上都显著优于手动提示工程和替代的最新优化方法，尽管没有使用ground truth反馈。通过将LLM的推理能力与自适应优化相结合，DEEVO代表了提示优化研究的重大进步，因为它消除了对预定指标的需求，从而可以持续改进AI系统。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）提示工程中的优化难题，尤其是在涉及主观质量评估的复杂任务中。现有方法依赖于预定义的数值指标或通用模板，无法有效捕捉任务的细微差别，导致优化效果不佳。此外，手动提示工程耗时且依赖专家经验，难以自动化。

核心思路：DEEVO的核心思路是通过模拟辩论过程来评估和优化提示。它利用LLM的推理能力，让不同的提示进行“辩论”，然后使用Elo评级系统来评估每个提示的优劣。这种方法避免了对预定义指标的依赖，能够更好地适应主观质量评估任务。同时，DEEVO采用进化算法，通过交叉和变异操作来不断改进提示，并保持提示的多样性。

技术框架：DEEVO框架包含以下主要模块：1) 提示初始化：随机生成一组初始提示。2) 辩论过程：从提示群体中随机选择两个提示，让LLM根据这两个提示生成答案，然后让另一个LLM判断哪个答案更好。3) Elo评级更新：根据辩论结果更新提示的Elo评级。4) 选择、交叉和变异：根据Elo评级选择优秀的提示，进行交叉和变异操作，生成新的提示。5) 迭代：重复步骤2-4，直到达到预定的迭代次数或满足停止条件。

关键创新：DEEVO的关键创新在于：1) 辩论驱动的评估：使用LLM进行辩论来评估提示的质量，避免了对预定义指标的依赖。2) 基于Elo评级的选择：使用Elo评级系统来选择优秀的提示，能够更好地反映提示的相对优劣。3) 智能交叉和战略突变：在交叉和变异操作中，DEEVO会考虑辩论反馈，结合成功和不成功提示的优点，而不是简单地拼接提示。

关键设计：DEEVO的关键设计包括：1) 辩论LLM的选择：选择具有较强推理能力的LLM作为辩论者。2) Elo评级系统的参数设置：设置合适的Elo评级初始值和更新速率。3) 交叉和变异操作的设计：设计能够保持提示语义连贯性的交叉和变异操作。4) 提示群体的规模：设置合适的提示群体规模，以保证多样性和计算效率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DEEVO在开放式任务和封闭式任务上都显著优于手动提示工程和替代的最新优化方法，且无需ground truth反馈。具体性能数据未知，但论文强调了DEEVO在没有预定义指标的情况下，也能持续改进AI系统的能力。

🎯 应用场景

DEEVO可应用于各种需要提示工程的领域，尤其是在涉及主观质量评估的任务中，例如内容生成、对话系统、代码生成等。它能够自动化提示优化过程，降低对专家经验的依赖，并提高LLM的性能。未来，DEEVO可以扩展到多模态提示优化，并与其他优化算法相结合，进一步提升优化效果。

📄 摘要（原文）

Prompt engineering represents a critical bottleneck to harness the full potential of Large Language Models (LLMs) for solving complex tasks, as it requires specialized expertise, significant trial-and-error, and manual intervention. This challenge is particularly pronounced for tasks involving subjective quality assessment, where defining explicit optimization objectives becomes fundamentally problematic. Existing automated prompt optimization methods falter in these scenarios, as they typically require well-defined task-specific numerical fitness functions or rely on generic templates that cannot capture the nuanced requirements of complex use cases. We introduce DEEVO (DEbate-driven EVOlutionary prompt optimization), a novel framework that guides prompt evolution through a debate-driven evaluation with an Elo-based selection. Contrary to prior work, DEEVOs approach enables exploration of the discrete prompt space while preserving semantic coherence through intelligent crossover and strategic mutation operations that incorporate debate-based feedback, combining elements from both successful and unsuccessful prompts based on identified strengths rather than arbitrary splicing. Using Elo ratings as a fitness proxy, DEEVO simultaneously drives improvement and preserves valuable diversity in the prompt population. Experimental results demonstrate that DEEVO significantly outperforms both manual prompt engineering and alternative state-of-the-art optimization approaches on open-ended tasks and close-ended tasks despite using no ground truth feedback. By connecting LLMs reasoning capabilities with adaptive optimization, DEEVO represents a significant advancement in prompt optimization research by eliminating the need of predetermined metrics to continuously improve AI systems.

Tournament of Prompts: Evolving LLM Instructions Through Structured Debates and Elo Ratings

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理