System Prompt Optimization with Meta-Learning
作者: Yumin Choi, Jinheon Baek, Sung Ju Hwang
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-05-14 (更新: 2025-10-10)
备注: NeurIPS 2025
💡 一句话要点
提出基于元学习的系统提示优化方法,提升LLM在多任务和多领域上的泛化能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 提示工程 系统提示优化 元学习 双层优化
📋 核心要点
- 现有LLM提示优化主要关注用户提示,忽略了可跨任务复用的系统提示的优化。
- 提出基于元学习的框架,通过迭代优化系统提示和用户提示,提升泛化能力。
- 实验表明,该方法生成的系统提示能有效泛化到未见任务,并加速用户提示的优化。
📝 摘要(中文)
大型语言模型(LLMs)展现了卓越的能力,而优化输入提示在最大化其性能方面起着关键作用。然而,现有的提示优化工作主要集中在特定于单个查询或任务的用户提示上,而很大程度上忽略了任务无关的系统提示,该提示一旦优化,便可应用于不同的任务和领域。受此启发,我们提出了双层系统提示优化这一新问题,其目标是设计对各种用户提示具有鲁棒性并可迁移到未见任务的系统提示。为了解决这个问题,我们提出了一个元学习框架,通过在多个数据集上的各种用户提示上优化系统提示来元学习系统提示,同时以迭代方式更新用户提示,以确保它们之间的协同作用。我们在涵盖5个不同领域的14个未见数据集上进行了实验,结果表明我们的方法生成的系统提示可以有效地泛化到各种用户提示。此外,我们的研究结果表明,优化的系统提示能够快速适应甚至未见任务,从而减少了测试时用户提示的优化步骤,同时提高了性能。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)中系统提示的优化问题。现有的提示优化方法主要关注于针对特定任务或查询的用户提示,而忽略了系统提示,即那些与任务无关、可以跨多个任务和领域复用的提示。这种忽略导致LLMs在面对新的、未见过的任务时,需要从头开始优化提示,效率低下且泛化能力受限。
核心思路:论文的核心思路是利用元学习来优化系统提示。通过在多个不同的任务和数据集上训练模型,使其能够学习到一种通用的系统提示,该提示能够很好地适应各种用户提示,并且能够快速迁移到新的任务上。这种方法的核心在于,它不是针对单个任务优化提示,而是学习一种通用的提示策略。
技术框架:该方法采用双层优化框架。外层循环优化系统提示,内层循环优化用户提示。具体来说,首先,从多个训练数据集中采样任务。然后,对于每个任务,使用当前的系统提示初始化LLM,并使用优化算法(如梯度下降)来优化用户提示,以最大化在该任务上的性能。接着,使用优化后的用户提示来评估当前系统提示的性能,并使用元学习算法(如MAML)来更新系统提示,使其能够更好地适应各种用户提示。这个过程迭代进行,直到系统提示收敛。
关键创新:该论文的关键创新在于提出了双层系统提示优化问题,并利用元学习框架来解决该问题。与传统的提示优化方法相比,该方法能够学习到一种通用的、可迁移的系统提示,从而提高了LLMs在面对新的任务时的泛化能力和适应速度。此外,迭代优化系统提示和用户提示,使得两者能够协同工作,进一步提升了性能。
关键设计:在实验中,论文使用了基于Transformer的LLM作为基础模型。用户提示的优化采用了梯度下降算法,并使用交叉熵损失函数来衡量模型在每个任务上的性能。元学习算法采用了MAML,并使用Adam优化器来更新系统提示。论文还探索了不同的系统提示初始化方法,并发现使用预训练的语言模型初始化系统提示能够获得更好的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在14个未见数据集上取得了显著的性能提升。与基线方法相比,该方法生成的系统提示能够更好地泛化到各种用户提示,并且能够加速LLM在未见任务上的适应速度。具体来说,该方法能够在更少的优化步骤内达到更高的性能,并且在某些任务上取得了超过10%的性能提升。
🎯 应用场景
该研究成果可广泛应用于各种需要利用LLM解决多任务问题的场景,例如智能客服、文本摘要、机器翻译等。通过优化系统提示,可以显著提高LLM在不同领域和任务上的性能,降低人工干预成本,并加速LLM在实际应用中的部署。
📄 摘要(原文)
Large Language Models (LLMs) have shown remarkable capabilities, with optimizing their input prompts playing a pivotal role in maximizing their performance. However, while LLM prompts consist of both the task-agnostic system prompts and task-specific user prompts, existing work on prompt optimization has focused on user prompts specific to individual queries or tasks, and largely overlooked the system prompt that is, once optimized, applicable across different tasks and domains. Motivated by this, we introduce the novel problem of bilevel system prompt optimization, whose objective is to design system prompts that are robust to diverse user prompts and transferable to unseen tasks. To tackle this problem, we then propose a meta-learning framework, which meta-learns the system prompt by optimizing it over various user prompts across multiple datasets, while simultaneously updating the user prompts in an iterative manner to ensure synergy between them. We conduct experiments on 14 unseen datasets spanning 5 different domains, on which we show that our approach produces system prompts that generalize effectively to diverse user prompts. Also, our findings reveal that the optimized system prompt enables rapid adaptation even to unseen tasks, requiring fewer optimization steps for test-time user prompts while achieving improved performance.