LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization

作者: Yuanchen Wu, Saurabh Verma, Justin Lee, Fangzhou Xiong, Poppy Zhang, Amel Awadelkarim, Xu Chen, Yubai Yuan, Shawndra Hill

分类: cs.CL, stat.ML

发布日期: 2025-10-14 (更新: 2026-01-28)

💡 一句话要点

提出Prompt Duel Optimizer (PDO)，高效解决无标签条件下的LLM提示优化问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 提示优化 无标签学习 大型语言模型 决斗式bandit 汤普森采样

📋 核心要点

现有自动提示优化方法依赖带标签数据，获取成本高昂，限制了其应用。
PDO利用LLM自身作为判断器，通过成对比较进行无标签提示优化，降低了数据依赖。
实验表明，PDO在BBH和MS MARCO数据集上优于无标签基线，且在预算有限时表现出色。

📝 摘要（中文）

大型语言模型（LLMs）对提示词非常敏感，但大多数自动提示优化（APO）方法都假设可以访问ground-truth参考（例如，带标签的验证数据），而获取这些数据成本高昂。我们提出了Prompt Duel Optimizer（PDO），这是一个样本高效的框架，用于在无标签条件下进行提示优化，它基于来自LLM判断器的成对偏好反馈。PDO将提示选择视为一个决斗式bandit问题，并结合了（i）双重汤普森采样，以在固定的判断预算下优先进行信息量大的比较，以及（ii）top-performer引导的变异，以扩展候选池，同时修剪弱提示。在BIG-bench Hard（BBH）和MS MARCO上的实验表明，PDO始终能够识别出比无标签基线更强的提示，同时在受限的比较预算下提供良好的质量-成本权衡。

🔬 方法详解

问题定义：现有的自动提示优化（APO）方法通常需要大量的标注数据作为ground truth，这在实际应用中成本很高，限制了其应用范围。论文旨在解决在无标签数据条件下，如何高效地优化LLM的提示词，以提升LLM在各种任务上的性能。现有方法的痛点在于对标注数据的依赖，以及在搜索空间中进行高效探索的挑战。

核心思路：论文的核心思路是将提示词的选择过程建模为一个决斗式bandit问题。通过让LLM自身作为判断器，对不同的提示词进行成对比较，从而获取偏好反馈。利用这些反馈信息，采用双重汤普森采样策略来选择最有信息量的比较，并结合top-performer引导的变异方法来扩展候选提示词的搜索空间。这样可以在没有标注数据的情况下，高效地找到更优的提示词。

技术框架：PDO框架主要包含两个核心模块：（1）双重汤普森采样（Double Thompson Sampling）：该模块负责根据当前已有的比较结果，选择接下来要进行比较的两个提示词。它利用汤普森采样算法，对每个提示词的潜在性能进行建模，并选择置信区间上限最高的两个提示词进行比较，以最大化信息增益。（2）Top-performer引导的变异（Top-performer Guided Mutation）：该模块负责生成新的候选提示词。它首先选择当前表现最好的若干个提示词作为“top-performers”，然后对这些提示词进行变异操作，例如随机插入、删除或替换词语，从而生成新的候选提示词。同时，该模块也会对表现较差的提示词进行修剪，以减少搜索空间的维度。

关键创新：PDO的关键创新在于其完全无标签的优化方式，以及将提示词选择建模为决斗式bandit问题。与传统的APO方法相比，PDO不需要任何标注数据，只需要利用LLM自身的能力进行判断。此外，PDO采用的双重汤普森采样和top-performer引导的变异策略，能够高效地探索提示词的搜索空间，找到更优的提示词。

关键设计：在双重汤普森采样中，每个提示词的性能被建模为一个Beta分布，其参数根据已有的比较结果进行更新。在top-performer引导的变异中，变异操作的概率和幅度可以根据实际情况进行调整。此外，论文还设计了一个比较预算，用于限制LLM判断器的调用次数，从而控制优化过程的成本。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PDO在BIG-bench Hard（BBH）和MS MARCO数据集上，均优于现有的无标签提示优化基线。例如，在BBH数据集上，PDO能够显著提升LLM的准确率，并且在比较预算有限的情况下，仍然能够保持良好的性能。此外，实验还验证了双重汤普森采样和top-performer引导的变异策略的有效性。

🎯 应用场景

PDO可广泛应用于各种需要提示工程的LLM应用场景，尤其是在缺乏标注数据的领域，例如医疗、金融等。它可以帮助用户自动优化LLM的提示词，提升LLM在特定任务上的性能，降低人工提示工程的成本。此外，PDO还可以用于探索LLM的潜在能力，发现更有效的提示策略。

📄 摘要（原文）

Large language models (LLMs) are highly sensitive to prompts, but most automatic prompt optimization (APO) methods assume access to ground-truth references (e.g., labeled validation data) that are costly to obtain. We propose the Prompt Duel Optimizer (PDO), a sample-efficient framework for label-free prompt optimization based on pairwise preference feedback from an LLM judge. PDO casts prompt selection as a dueling-bandit problem and combines (i) Double Thompson Sampling to prioritize informative comparisons under a fixed judge budget, with (ii) top-performer guided mutation to expand the candidate pool while pruning weak prompts. Experiments on BIG-bench Hard (BBH) and MS MARCO show that PDO consistently identifies stronger prompts than label-free baselines, while offering favorable quality--cost trade-offs under constrained comparison budgets.

LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理