Adaptive Prompt Structure Factorization: A Framework for Self-Discovering and Optimizing Compositional Prompt Programs

📄 arXiv: 2604.06699v1 📥 PDF

作者: Haoyue Liu, Zhichao Wang, Yongxin Guo, Haoran Shou, Xiaoying Tang

分类: cs.CL, cs.LG

发布日期: 2026-04-08


💡 一句话要点

提出自适应提示结构分解框架,用于自动发现和优化组合提示程序。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 提示工程 大语言模型 自动提示优化 提示结构分解 自适应优化

📋 核心要点

  1. 现有提示优化方法通常编辑单体提示,导致组件耦合、信用分配模糊,限制了可控性,并浪费tokens。
  2. aPSF框架通过架构模型发现任务特定的提示结构作为语义因素,并进行介入式的单因素更新。
  3. 实验表明,aPSF在多个推理基准上优于现有方法,提高了准确率并降低了优化成本。

📝 摘要(中文)

自动提示优化对于从大型语言模型(LLM)中获得可靠的推理至关重要。然而,大多数仅通过API的提示优化器迭代地编辑单体提示,耦合组件并模糊信用分配,限制了可控性并浪费了tokens。我们提出了自适应提示结构分解(aPSF),这是一个仅通过API的框架(prompt-in/text-out;无法访问模型内部),它使用一个架构模型来发现特定于任务的提示结构作为语义因素。然后,aPSF执行介入式的单因素更新:介入式因素级别评分通过验证性能的变化来估计每个因素的边际贡献,并且错误引导的因素选择将更新路由到当前主要的失败源,以实现更高效的样本优化。在多个高级推理基准测试中,aPSF优于包括原理感知优化器在内的强大基线,平均提高了高达+2.16个百分点的准确率,并在MultiArith上减少了45-87%的tokens优化成本,同时在1步内达到峰值验证。

🔬 方法详解

问题定义:现有的大语言模型(LLM)提示优化方法,尤其是那些仅通过API访问LLM的优化器,通常直接修改整个提示文本。这种方式将提示的不同组成部分紧密耦合在一起,使得难以确定哪些部分对最终结果贡献最大(信用分配问题),也难以对提示进行精细的控制。此外,迭代地修改整个提示也导致了tokens的浪费,降低了优化效率。

核心思路:aPSF的核心思想是将提示分解为多个语义相关的“因素”(factors),每个因素代表提示的一个特定方面或功能。通过这种分解,可以独立地评估和优化每个因素,从而更精确地进行信用分配,提高可控性,并减少tokens的使用。这种分解是自适应的,即根据不同的任务自动发现合适的提示结构。

技术框架:aPSF框架包含以下几个主要模块:1) 架构模型(Architect Model):用于发现任务特定的提示结构,将原始提示分解为多个语义因素。2) 介入式因素级别评分(Interventional Factor-Level Scoring):通过评估改变单个因素对验证性能的影响,来估计每个因素的边际贡献。3) 错误引导的因素选择(Error-Guided Factor Selection):根据当前的错误类型,选择最有可能导致错误的因素进行更新,从而提高优化效率。整个流程是一个迭代的过程,不断地分解、评估和优化提示的各个因素。

关键创新:aPSF的关键创新在于其自适应的提示结构分解能力。与传统的单体提示优化方法不同,aPSF能够自动地发现提示中潜在的语义结构,并将提示分解为多个可独立优化的因素。这种分解不仅提高了优化效率,也使得对提示的控制更加精细。此外,介入式因素级别评分和错误引导的因素选择进一步提高了优化的效率和准确性。

关键设计:架构模型的设计细节未知,但其目标是根据任务特点自动发现合适的提示结构。介入式因素级别评分通过计算改变单个因素后验证集性能的变化来评估该因素的重要性。错误引导的因素选择可能基于对模型输出错误的分析,选择与该错误最相关的因素进行更新。具体的损失函数和网络结构等细节在论文中可能没有详细描述,需要进一步研究。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,aPSF在多个高级推理基准测试中优于现有的提示优化方法,平均提高了高达+2.16个百分点的准确率。此外,aPSF在MultiArith数据集上减少了45-87%的tokens优化成本,并且仅需1步即可达到峰值验证性能,显著提高了优化效率。

🎯 应用场景

该研究成果可应用于各种需要提示工程的大语言模型应用场景,例如问答系统、文本生成、代码生成等。通过自动优化提示,可以提高模型的性能和可靠性,降低人工提示工程的成本。未来,该方法可以进一步扩展到更复杂的任务和模型,并与其他提示优化技术相结合,实现更强大的自动化提示优化能力。

📄 摘要(原文)

Automated prompt optimization is crucial for eliciting reliable reasoning from large language models (LLMs), yet most API-only prompt optimizers iteratively edit monolithic prompts, coupling components and obscuring credit assignment, limiting controllability, and wasting tokens. We propose Adaptive Prompt Structure Factorization (aPSF), an API-only framework (prompt-in/text-out; no access to model internals) that uses an Architect model to discover task-specific prompt structures as semantic factors. aPSF then performs interventional, single-factor updates: interventional factor-level scoring estimates each factor's marginal contribution via validation-performance changes, and error-guided factor selection routes updates to the current dominant failure source for more sample-efficient optimization. Across multiple advanced reasoning benchmarks, aPSF outperforms strong baselines including principle-aware optimizers, improving accuracy by up to +2.16 percentage points on average, and reduces optimization cost by 45--87% tokens on MultiArith while reaching peak validation in 1 step.