CAPO: Cost-Aware Prompt Optimization

📄 arXiv: 2504.16005v4 📥 PDF

作者: Tom Zehle, Moritz Schlager, Timo Heiß, Matthias Feurer

分类: cs.CL, cs.AI, cs.NE, stat.ML

发布日期: 2025-04-22 (更新: 2025-06-17)

备注: Submitted to AutoML 2025


💡 一句话要点

提出CAPO以提升提示优化的成本效益

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 提示优化 大型语言模型 AutoML 进化算法 多目标优化 自然语言处理 成本效益 算法创新

📋 核心要点

  1. 现有的提示优化方法在性能和成本之间存在显著的权衡,导致优化过程昂贵且低效。
  2. CAPO算法通过结合AutoML技术,采用进化策略和多目标优化,提升了提示优化的效率和效果。
  3. 实验结果显示,CAPO在多种数据集和LLMs上表现优异,准确率提升显著,且在较小预算下依然有效。

📝 摘要(中文)

大型语言模型(LLMs)通过提示引导解决多种自然语言处理任务,但其性能对提示的表述极为敏感。现有的自动提示优化方法虽然能够找到最佳提示,但通常需要大量的LLM调用和输入标记,导致优化成本高昂。为此,本文提出了CAPO(成本感知提示优化)算法,通过整合AutoML技术提高提示优化的效率。CAPO采用进化算法,将LLMs作为操作符,结合竞赛机制以节省评估次数,并通过多目标优化在性能与提示长度之间取得平衡。实验结果表明,CAPO在11/15的案例中超越了最先进的离散提示优化方法,准确率提升幅度最高可达21个百分点。CAPO在较小预算下也能实现更好的性能,且通过长度惩罚降低平均提示长度,具有成本效益和成本意识。

🔬 方法详解

问题定义:本文旨在解决现有提示优化方法在成本和效率上的不足,尤其是在需要大量LLM调用和输入标记的情况下,导致优化过程昂贵且低效。

核心思路:CAPO算法通过引入AutoML技术,采用进化算法和多目标优化策略,旨在提高提示优化的效率,同时兼顾性能和提示长度。

技术框架:CAPO的整体架构包括多个模块,首先通过进化算法生成候选提示,然后利用竞赛机制减少评估次数,最后通过多目标优化平衡提示的性能与长度。

关键创新:CAPO的主要创新在于将LLMs作为操作符,并结合竞赛机制和多目标优化,显著提升了提示优化的效率和效果,与现有方法相比具有本质区别。

关键设计:CAPO在设计中引入了长度惩罚机制,以降低平均提示长度,同时优化了损失函数以平衡性能与提示的复杂性。算法的参数设置经过精心调整,以确保在不同任务和数据集上均能表现出色。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CAPO在11/15的实验案例中超越了最先进的离散提示优化方法,准确率提升幅度最高可达21个百分点。该算法在较小预算下也能实现更好的性能,并通过竞赛机制有效节省评估次数,展现出良好的成本效益。

🎯 应用场景

CAPO算法在自然语言处理领域具有广泛的应用潜力,尤其是在需要高效提示生成的任务中,如文本生成、问答系统和对话系统等。其成本效益的提升使得更多的研究者和开发者能够利用大型语言模型进行创新,推动相关技术的普及和发展。

📄 摘要(原文)

Large language models (LLMs) have revolutionized natural language processing by solving a wide range of tasks simply guided by a prompt. Yet their performance is highly sensitive to prompt formulation. While automatic prompt optimization addresses this challenge by finding optimal prompts, current methods require a substantial number of LLM calls and input tokens, making prompt optimization expensive. We introduce CAPO (Cost-Aware Prompt Optimization), an algorithm that enhances prompt optimization efficiency by integrating AutoML techniques. CAPO is an evolutionary approach with LLMs as operators, incorporating racing to save evaluations and multi-objective optimization to balance performance with prompt length. It jointly optimizes instructions and few-shot examples while leveraging task descriptions for improved robustness. Our extensive experiments across diverse datasets and LLMs demonstrate that CAPO outperforms state-of-the-art discrete prompt optimization methods in 11/15 cases with improvements up to 21%p in accuracy. Our algorithm achieves better performances already with smaller budgets, saves evaluations through racing, and decreases average prompt length via a length penalty, making it both cost-efficient and cost-aware. Even without few-shot examples, CAPO outperforms its competitors and generally remains robust to initial prompts. CAPO represents an important step toward making prompt optimization more powerful and accessible by improving cost-efficiency.