Generalizable Self-Evolving Memory for Automatic Prompt Optimization

📄 arXiv: 2603.21520v1 📥 PDF

作者: Guanbao Liang, Yuanchen Bei, Sheng Zhou, Yuheng Qin, Huan Zhou, Bingxin Jia, Bin Li, Jiajun Bu

分类: cs.CL

发布日期: 2026-03-23


💡 一句话要点

提出MemAPO,通过自进化记忆实现大语言模型自动提示优化,提升泛化能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动提示优化 大型语言模型 记忆网络 自进化学习 经验积累

📋 核心要点

  1. 现有自动提示优化方法泛化性差,难以跨异构查询应用,且无法积累可复用的提示知识。
  2. MemAPO通过双重记忆机制,存储成功推理策略和失败模式,并迭代更新记忆,实现提示的自进化优化。
  3. 实验表明,MemAPO在多个基准测试中优于现有方法,并显著降低了优化成本,提升了效率。

📝 摘要(中文)

本文提出了一种名为MemAPO的记忆驱动框架,用于自动提示优化,旨在使大型语言模型(LLMs)能够适应下游任务。与现有方法专注于为特定任务搜索专门提示不同,MemAPO将提示优化重新概念化为可泛化和自进化的经验积累。MemAPO维护一个双重记忆机制,将成功的推理轨迹提炼成可重用的策略模板,同时将不正确的生成组织成结构化的错误模式,以捕获重复出现的失败模式。对于新的提示,该框架检索相关的策略和失败模式,以组成既能促进有效推理又能避免已知错误的提示。通过迭代的自我反思和记忆编辑,MemAPO不断更新其记忆,使提示优化能够随着时间的推移而改进,而不是为每个任务从头开始。在各种基准测试上的实验表明,MemAPO始终优于具有代表性的提示优化基线,同时显著降低了优化成本。

🔬 方法详解

问题定义:现有自动提示优化方法通常针对特定任务搜索专门的提示,缺乏跨任务的泛化能力。此外,这些方法无法随着时间的推移积累和复用提示知识,每次面对新任务都需要从头开始优化,效率较低。因此,如何设计一种能够泛化到不同任务,并且能够不断学习和积累经验的自动提示优化方法是一个关键问题。

核心思路:MemAPO的核心思路是将提示优化视为一个经验积累的过程。通过维护一个双重记忆机制,MemAPO能够存储成功的推理策略和失败的错误模式。当面对新的提示时,MemAPO会检索相关的策略和错误模式,并利用这些信息来生成更有效的提示。此外,MemAPO还通过迭代的自我反思和记忆编辑来不断更新其记忆,从而实现提示的自进化优化。

技术框架:MemAPO框架包含以下几个主要模块:1) 策略记忆:存储成功的推理轨迹,形成可重用的策略模板。2) 错误模式记忆:存储不正确的生成,形成结构化的错误模式。3) 提示生成器:根据检索到的策略和错误模式,生成新的提示。4) 自我反思模块:评估生成提示的性能,并根据评估结果更新记忆。整个流程是迭代进行的,通过不断地自我反思和记忆编辑,MemAPO能够不断提高提示的质量。

关键创新:MemAPO的关键创新在于其记忆驱动的框架和自进化机制。与现有方法不同,MemAPO不是为每个任务单独优化提示,而是通过积累和复用经验来提高提示的泛化能力。此外,MemAPO的自进化机制使其能够不断学习和改进,从而实现提示的持续优化。

关键设计:MemAPO的关键设计包括:1) 双重记忆机制:策略记忆和错误模式记忆分别存储成功的经验和失败的教训,从而更全面地捕捉提示优化的知识。2) 记忆检索机制:根据提示的相似度检索相关的策略和错误模式,从而提高提示生成的效率。3) 自我反思机制:通过评估生成提示的性能来更新记忆,从而实现提示的自进化优化。具体的参数设置、损失函数和网络结构等细节在论文中进行了详细描述,此处不再赘述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MemAPO在多个基准测试中始终优于具有代表性的提示优化基线。例如,在某些任务上,MemAPO的性能提升超过10%。此外,MemAPO还显著降低了优化成本,使得自动提示优化更加高效。

🎯 应用场景

MemAPO具有广泛的应用前景,可应用于各种需要利用大型语言模型进行推理和决策的任务中,例如问答系统、文本摘要、代码生成等。通过不断学习和积累经验,MemAPO能够显著提高大型语言模型的性能,并降低人工提示工程的成本。未来,MemAPO有望成为一种通用的自动提示优化工具,推动人工智能技术的发展。

📄 摘要(原文)

Automatic prompt optimization is a promising approach for adapting large language models (LLMs) to downstream tasks, yet existing methods typically search for a specific prompt specialized to a fixed task. This paradigm limits generalization across heterogeneous queries and prevents models from accumulating reusable prompting knowledge over time. In this paper, we propose MemAPO, a memory-driven framework that reconceptualizes prompt optimization as generalizable and self-evolving experience accumulation. MemAPO maintains a dual-memory mechanism that distills successful reasoning trajectories into reusable strategy templates while organizing incorrect generations into structured error patterns that capture recurrent failure modes. Given a new prompt, the framework retrieves both relevant strategies and failure patterns to compose prompts that promote effective reasoning while discouraging known mistakes. Through iterative self-reflection and memory editing, MemAPO continuously updates its memory, enabling prompt optimization to improve over time rather than restarting from scratch for each task. Experiments on diverse benchmarks show that MemAPO consistently outperforms representative prompt optimization baselines while substantially reducing optimization cost.