UPA: Unsupervised Prompt Agent via Tree-Based Search and Selection

📄 arXiv: 2601.23273v1 📥 PDF

作者: Siran Peng, Weisong Zhao, Tianyu Fu, Chenxu Zhao, Tianshuo Zhang, Haoyuan Zhang, Xiangyu Zhu, Minghui Wu, Zhen Lei

分类: cs.CL

发布日期: 2026-01-30


💡 一句话要点

提出UPA:一种基于树搜索与选择的无监督Prompt Agent,用于自动Prompt优化。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Prompt优化 无监督学习 大型语言模型 树搜索 贝叶斯聚合

📋 核心要点

  1. 现有Prompt Agent依赖有监督奖励信号进行prompt优化,但在实际场景中,有监督数据往往难以获取。
  2. UPA通过迭代构建树结构,利用LLM的成对比较结果进行prompt空间搜索,并采用两阶段框架解耦探索与选择。
  3. 实验结果表明,UPA在多个任务上显著优于现有prompt优化方法,验证了无监督Agent式prompt优化的有效性。

📝 摘要(中文)

Prompt Agent作为一种自动prompt优化方法,将prompt改进建模为结构化prompt空间上的序列决策问题。尽管这种形式可以使用高级规划算法,但这些方法通常需要有监督的奖励信号,这在实际场景中通常不可用。本文提出了UPA,一种无监督Prompt Agent,无需监督反馈即可实现结构化搜索和选择。具体来说,在搜索过程中,UPA迭代地构建一个演化的树结构,以在prompt空间中导航,由来自大型语言模型(LLM)的细粒度和顺序不变的成对比较指导。重要的是,由于这些局部比较本质上不会产生一致的全局尺度,因此我们将系统性的prompt探索与最终选择分离,引入了一个基于Bradley-Terry-Luce(BTL)模型的两阶段框架。该框架首先执行局部比较的路径式贝叶斯聚合,以过滤不确定性下的候选者,然后进行全局锦标赛式的比较,以推断潜在的prompt质量并识别最佳prompt。在多个任务上的实验表明,UPA始终优于现有的prompt优化方法,表明即使在完全无监督的环境中,Agent式优化仍然非常有效。

🔬 方法详解

问题定义:现有的Prompt Agent方法依赖于有监督的奖励信号来指导prompt的优化过程。然而,在许多实际应用场景中,获取高质量的有监督数据成本高昂甚至不可行。因此,如何在无监督的条件下进行有效的prompt优化是一个重要的挑战。现有方法无法在缺乏监督信号的情况下进行有效的prompt搜索和选择,限制了其应用范围。

核心思路:UPA的核心思路是利用大型语言模型(LLM)的内在能力,通过细粒度的成对比较来评估不同prompt的优劣,从而在没有显式监督信号的情况下进行prompt优化。为了解决局部比较结果不一致的问题,UPA将prompt优化过程分解为探索和选择两个阶段,并采用基于Bradley-Terry-Luce(BTL)模型的贝叶斯聚合方法来推断prompt的全局质量。

技术框架:UPA采用两阶段框架:1) 树搜索与贝叶斯聚合:UPA首先构建一个树结构来探索prompt空间。在树的每个节点,UPA利用LLM进行成对比较,评估当前prompt与候选prompt的优劣。然后,UPA使用贝叶斯聚合方法,结合Bradley-Terry-Luce(BTL)模型,对路径上的局部比较结果进行整合,从而过滤掉不确定性高的候选prompt。2) 全局锦标赛式选择:在第一阶段筛选出候选prompt后,UPA进行全局锦标赛式的比较,即让所有候选prompt两两比较,根据比较结果推断每个prompt的潜在质量,并选择最优的prompt。

关键创新:UPA的关键创新在于:1) 无监督学习:UPA完全依赖于LLM的内在能力进行prompt优化,无需任何有监督数据。2) 两阶段框架:UPA将prompt优化分解为探索和选择两个阶段,有效解决了局部比较结果不一致的问题。3) 基于BTL模型的贝叶斯聚合:UPA利用BTL模型对局部比较结果进行贝叶斯聚合,从而更准确地估计prompt的全局质量。

关键设计:UPA的关键设计包括:1) 树搜索策略:UPA采用迭代的方式构建树结构,每次选择最有希望的节点进行扩展。2) 成对比较方法:UPA使用LLM进行细粒度的成对比较,评估不同prompt的优劣。3) BTL模型参数设置:UPA需要设置BTL模型的先验分布和超参数,以控制贝叶斯聚合过程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,UPA在多个任务上显著优于现有的prompt优化方法。例如,在文本生成任务中,UPA生成的文本质量明显高于其他方法。此外,UPA在无监督条件下的性能甚至可以与一些有监督方法相媲美,证明了UPA的有效性和潜力。

🎯 应用场景

UPA具有广泛的应用前景,可以应用于各种自然语言处理任务,例如文本生成、文本分类、问答系统等。尤其是在缺乏有监督数据的场景下,UPA能够自动优化prompt,提高模型的性能。此外,UPA还可以用于探索新的prompt设计方法,帮助研究人员更好地理解prompt的作用机制。

📄 摘要(原文)

Prompt agents have recently emerged as a promising paradigm for automated prompt optimization, framing refinement as a sequential decision-making problem over a structured prompt space. While this formulation enables the use of advanced planning algorithms, these methods typically assume access to supervised reward signals, which are often unavailable in practical scenarios. In this work, we propose UPA, an Unsupervised Prompt Agent that realizes structured search and selection without relying on supervised feedback. Specifically, during search, UPA iteratively constructs an evolving tree structure to navigate the prompt space, guided by fine-grained and order-invariant pairwise comparisons from Large Language Models (LLMs). Crucially, as these local comparisons do not inherently yield a consistent global scale, we decouple systematic prompt exploration from final selection, introducing a two-stage framework grounded in the Bradley-Terry-Luce (BTL) model. This framework first performs path-wise Bayesian aggregation of local comparisons to filter candidates under uncertainty, followed by global tournament-style comparisons to infer latent prompt quality and identify the optimal prompt. Experiments across multiple tasks demonstrate that UPA consistently outperforms existing prompt optimization methods, showing that agent-style optimization remains highly effective even in fully unsupervised settings.