LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization
作者: Yuanchen Wu, Saurabh Verma, Justin Lee, Fangzhou Xiong, Poppy Zhang, Amel Awadelkarim, Xu Chen, Yubai Yuan, Shawndra Hill
分类: cs.CL, stat.ML
发布日期: 2025-10-14 (更新: 2026-01-28)
💡 一句话要点
提出Prompt Duel Optimizer (PDO),高效解决无标签条件下的LLM提示优化问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 提示优化 无标签学习 大型语言模型 决斗式bandit 汤普森采样
📋 核心要点
- 现有自动提示优化方法依赖带标签数据,获取成本高昂,限制了其应用。
- PDO利用LLM自身作为判断器,通过成对比较进行无标签提示优化,降低了数据依赖。
- 实验表明,PDO在BBH和MS MARCO数据集上优于无标签基线,且在预算有限时表现出色。
📝 摘要(中文)
大型语言模型(LLMs)对提示词非常敏感,但大多数自动提示优化(APO)方法都假设可以访问ground-truth参考(例如,带标签的验证数据),而获取这些数据成本高昂。我们提出了Prompt Duel Optimizer(PDO),这是一个样本高效的框架,用于在无标签条件下进行提示优化,它基于来自LLM判断器的成对偏好反馈。PDO将提示选择视为一个决斗式bandit问题,并结合了(i)双重汤普森采样,以在固定的判断预算下优先进行信息量大的比较,以及(ii)top-performer引导的变异,以扩展候选池,同时修剪弱提示。在BIG-bench Hard(BBH)和MS MARCO上的实验表明,PDO始终能够识别出比无标签基线更强的提示,同时在受限的比较预算下提供良好的质量-成本权衡。
🔬 方法详解
问题定义:现有的自动提示优化(APO)方法通常需要大量的标注数据作为ground truth,这在实际应用中成本很高,限制了其应用范围。论文旨在解决在无标签数据条件下,如何高效地优化LLM的提示词,以提升LLM在各种任务上的性能。现有方法的痛点在于对标注数据的依赖,以及在搜索空间中进行高效探索的挑战。
核心思路:论文的核心思路是将提示词的选择过程建模为一个决斗式bandit问题。通过让LLM自身作为判断器,对不同的提示词进行成对比较,从而获取偏好反馈。利用这些反馈信息,采用双重汤普森采样策略来选择最有信息量的比较,并结合top-performer引导的变异方法来扩展候选提示词的搜索空间。这样可以在没有标注数据的情况下,高效地找到更优的提示词。
技术框架:PDO框架主要包含两个核心模块:(1)双重汤普森采样(Double Thompson Sampling):该模块负责根据当前已有的比较结果,选择接下来要进行比较的两个提示词。它利用汤普森采样算法,对每个提示词的潜在性能进行建模,并选择置信区间上限最高的两个提示词进行比较,以最大化信息增益。(2)Top-performer引导的变异(Top-performer Guided Mutation):该模块负责生成新的候选提示词。它首先选择当前表现最好的若干个提示词作为“top-performers”,然后对这些提示词进行变异操作,例如随机插入、删除或替换词语,从而生成新的候选提示词。同时,该模块也会对表现较差的提示词进行修剪,以减少搜索空间的维度。
关键创新:PDO的关键创新在于其完全无标签的优化方式,以及将提示词选择建模为决斗式bandit问题。与传统的APO方法相比,PDO不需要任何标注数据,只需要利用LLM自身的能力进行判断。此外,PDO采用的双重汤普森采样和top-performer引导的变异策略,能够高效地探索提示词的搜索空间,找到更优的提示词。
关键设计:在双重汤普森采样中,每个提示词的性能被建模为一个Beta分布,其参数根据已有的比较结果进行更新。在top-performer引导的变异中,变异操作的概率和幅度可以根据实际情况进行调整。此外,论文还设计了一个比较预算,用于限制LLM判断器的调用次数,从而控制优化过程的成本。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PDO在BIG-bench Hard(BBH)和MS MARCO数据集上,均优于现有的无标签提示优化基线。例如,在BBH数据集上,PDO能够显著提升LLM的准确率,并且在比较预算有限的情况下,仍然能够保持良好的性能。此外,实验还验证了双重汤普森采样和top-performer引导的变异策略的有效性。
🎯 应用场景
PDO可广泛应用于各种需要提示工程的LLM应用场景,尤其是在缺乏标注数据的领域,例如医疗、金融等。它可以帮助用户自动优化LLM的提示词,提升LLM在特定任务上的性能,降低人工提示工程的成本。此外,PDO还可以用于探索LLM的潜在能力,发现更有效的提示策略。
📄 摘要(原文)
Large language models (LLMs) are highly sensitive to prompts, but most automatic prompt optimization (APO) methods assume access to ground-truth references (e.g., labeled validation data) that are costly to obtain. We propose the Prompt Duel Optimizer (PDO), a sample-efficient framework for label-free prompt optimization based on pairwise preference feedback from an LLM judge. PDO casts prompt selection as a dueling-bandit problem and combines (i) Double Thompson Sampling to prioritize informative comparisons under a fixed judge budget, with (ii) top-performer guided mutation to expand the candidate pool while pruning weak prompts. Experiments on BIG-bench Hard (BBH) and MS MARCO show that PDO consistently identifies stronger prompts than label-free baselines, while offering favorable quality--cost trade-offs under constrained comparison budgets.