Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models
作者: Qizheng Zhang, Changran Hu, Shubhangi Upasani, Boyuan Ma, Fenglu Hong, Vamsidhar Kamanuru, Jay Rainton, Chen Wu, Mengmeng Ji, Hanchen Li, Urmish Thakker, James Zou, Kunle Olukotun
分类: cs.LG, cs.AI, cs.CL
发布日期: 2025-10-06 (更新: 2026-01-29)
备注: ICLR 2026. 23 pages
💡 一句话要点
提出ACE框架,通过演进上下文提升LLM在Agent和领域推理任务中的性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 上下文工程 大型语言模型 智能体 领域推理 自适应记忆
📋 核心要点
- 现有LLM应用依赖上下文适应,但存在简洁性偏差和上下文崩溃问题,导致领域知识丢失和细节侵蚀。
- ACE框架将上下文视为演进的剧本,通过生成、反思和管理模块化过程,积累和优化策略。
- 实验表明,ACE在Agent和金融领域分别提升10.6%和8.6%,同时降低了适应延迟和部署成本。
📝 摘要(中文)
大型语言模型(LLM)的应用,如智能体和特定领域的推理,越来越依赖于上下文适应——通过指令、策略或证据来修改输入,而不是更新权重。现有方法虽然提高了可用性,但常常受到简洁性偏差(为了简洁的总结而丢弃领域知识)和上下文崩溃(迭代重写会随着时间推移而侵蚀细节)的影响。本文基于动态备忘录引入的自适应记忆,提出了ACE(Agentic Context Engineering)框架,该框架将上下文视为不断演进的剧本,通过生成、反思和管理等模块化过程来积累、改进和组织策略。ACE通过结构化的增量更新来防止崩溃,从而保留详细的知识并随着长上下文模型进行扩展。在智能体和特定领域的基准测试中,ACE优化了离线(例如,系统提示)和在线(例如,智能体记忆)上下文,始终优于强大的基线:在智能体上提升10.6%,在金融领域提升8.6%,同时显著降低了适应延迟和部署成本。值得注意的是,ACE可以在没有标签监督的情况下有效地适应,而是利用自然的执行反馈。在AppWorld排行榜上,ACE在总体平均水平上与排名最高的生产级智能体相匹配,并在更具挑战性的测试分割上超过了它,尽管使用了较小的开源模型。这些结果表明,全面、不断演进的上下文能够实现可扩展、高效且自我改进的LLM系统,且开销较低。
🔬 方法详解
问题定义:现有的大型语言模型在智能体和领域特定推理任务中,依赖于上下文信息来指导模型的行为。然而,现有的上下文适应方法存在两个主要问题:一是简洁性偏差,即为了保持上下文的简洁,会丢失重要的领域知识;二是上下文崩溃,即在迭代更新上下文的过程中,细节信息会逐渐丢失,导致性能下降。
核心思路:ACE框架的核心思路是将上下文视为一个不断演进的“剧本”,通过智能体自主地生成、反思和管理上下文信息,从而克服简洁性偏差和上下文崩溃的问题。这种方法允许上下文逐步积累知识,并根据反馈进行优化,从而提高LLM在复杂任务中的性能。
技术框架:ACE框架包含三个主要模块:生成(Generation)、反思(Reflection)和管理(Curation)。生成模块负责根据当前的任务和上下文生成新的信息;反思模块负责评估生成的信息的质量,并提供反馈;管理模块负责组织和存储上下文信息,以便后续使用。这三个模块协同工作,使得上下文能够不断地演进和优化。
关键创新:ACE框架的关键创新在于其将上下文视为一个动态的、可演进的实体,而不是一个静态的输入。通过引入生成、反思和管理机制,ACE框架能够自主地学习和优化上下文信息,从而提高LLM的性能。与传统的上下文适应方法相比,ACE框架能够更好地保留领域知识,并避免上下文崩溃的问题。
关键设计:ACE框架的关键设计包括:(1) 使用LLM作为生成和反思模块的核心引擎;(2) 设计合适的提示语(prompts)来指导LLM生成高质量的上下文信息;(3) 使用结构化的存储方式来组织上下文信息,例如使用知识图谱或向量数据库;(4) 设计合适的奖励函数来指导反思模块的学习,例如使用任务完成率或用户满意度作为奖励信号。具体的参数设置和网络结构取决于具体的应用场景,论文中没有详细说明。
🖼️ 关键图片
📊 实验亮点
ACE框架在智能体和金融领域的基准测试中取得了显著的性能提升。在智能体任务中,ACE框架的性能比基线方法提高了10.6%;在金融领域,ACE框架的性能比基线方法提高了8.6%。此外,ACE框架还显著降低了适应延迟和部署成本。在AppWorld排行榜上,ACE框架的性能与排名最高的生产级智能体相匹配,并在更具挑战性的测试分割上超过了它,尽管使用了较小的开源模型。
🎯 应用场景
ACE框架具有广泛的应用前景,可以应用于智能客服、金融分析、医疗诊断等领域。通过不断演进的上下文,LLM可以更好地理解用户意图,提供更准确、更个性化的服务。此外,ACE框架还可以用于构建自主学习的智能体,使其能够不断地从经验中学习,提高自身的性能。未来,ACE框架有望成为构建下一代智能系统的关键技术。
📄 摘要(原文)
Large language model (LLM) applications such as agents and domain-specific reasoning increasingly rely on context adaptation -- modifying inputs with instructions, strategies, or evidence, rather than weight updates. Prior approaches improve usability but often suffer from brevity bias, which drops domain insights for concise summaries, and from context collapse, where iterative rewriting erodes details over time. Building on the adaptive memory introduced by Dynamic Cheatsheet, we introduce ACE (Agentic Context Engineering), a framework that treats contexts as evolving playbooks that accumulate, refine, and organize strategies through a modular process of generation, reflection, and curation. ACE prevents collapse with structured, incremental updates that preserve detailed knowledge and scale with long-context models. Across agent and domain-specific benchmarks, ACE optimizes contexts both offline (e.g., system prompts) and online (e.g., agent memory), consistently outperforming strong baselines: +10.6% on agents and +8.6% on finance, while significantly reducing adaptation latency and rollout cost. Notably, ACE could adapt effectively without labeled supervision and instead by leveraging natural execution feedback. On the AppWorld leaderboard, ACE matches the top-ranked production-level agent on the overall average and surpasses it on the harder test-challenge split, despite using a smaller open-source model. These results show that comprehensive, evolving contexts enable scalable, efficient, and self-improving LLM systems with low overhead.