A Survey of Context Engineering for Large Language Models

📄 arXiv: 2507.13334v2 📥 PDF

作者: Lingrui Mei, Jiayu Yao, Yuyao Ge, Yiwei Wang, Baolong Bi, Yujun Cai, Jiazhi Liu, Mingyu Li, Zhong-Zhi Li, Duzhen Zhang, Chenlin Zhou, Jiayi Mao, Tianze Xia, Jiafeng Guo, Shenghua Liu

分类: cs.CL

发布日期: 2025-07-17 (更新: 2025-07-21)

备注: ongoing work; 166 pages, 1411 citations


💡 一句话要点

综述论文:针对大语言模型的上下文工程,系统性优化信息载荷以提升模型性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 上下文工程 检索增强生成 提示工程 知识库 多智能体系统 记忆系统

📋 核心要点

  1. 现有大语言模型在理解复杂上下文方面表现出色,但在生成同样复杂和长篇幅的输出时存在局限性。
  2. 本文提出“上下文工程”的概念,旨在系统性地优化输入LLM的信息载荷,超越了简单的prompt设计。
  3. 通过对1400多篇论文的分析,本文构建了上下文工程的技术路线图,并指出了未来研究的关键方向。

📝 摘要(中文)

本文对大语言模型(LLM)的上下文工程进行了综述。LLM的性能从根本上取决于推理过程中提供的上下文信息。本文介绍了上下文工程,这是一个超越简单提示设计的正式学科,它包括对LLM的信息载荷进行系统优化。我们提出了一个全面的分类法,将上下文工程分解为基础组件和将它们集成到智能系统中的复杂实现。我们首先考察基础组件:上下文检索和生成、上下文处理和上下文管理。然后,我们探讨如何以架构方式集成这些组件以创建复杂的系统实现:检索增强生成(RAG)、记忆系统和工具集成推理以及多智能体系统。通过对1400多篇研究论文的系统分析,我们的综述不仅为该领域建立了技术路线图,而且揭示了一个关键的研究差距:模型能力之间存在根本的不对称性。虽然当前的模型在高级上下文工程的增强下,在理解复杂上下文方面表现出卓越的熟练程度,但它们在生成同样复杂、长篇幅的输出方面表现出明显的局限性。解决这一差距是未来研究的首要任务。最终,本综述为推进上下文感知AI的研究人员和工程师提供了一个统一的框架。

🔬 方法详解

问题定义:现有大语言模型(LLM)的性能高度依赖于输入的上下文信息。然而,如何有效地组织和利用这些上下文信息,以最大化LLM的性能,仍然是一个挑战。现有的prompt设计方法往往是启发式的,缺乏系统性和优化策略。此外,LLM在理解复杂上下文和生成复杂输出之间存在能力不对称。

核心思路:本文的核心思路是将上下文工程定义为一个正式的学科,并对其进行系统性的分解和分析。通过研究上下文检索、生成、处理和管理等基础组件,以及检索增强生成(RAG)、记忆系统和工具集成推理等高级应用,旨在为LLM的上下文优化提供一个统一的框架。

技术框架:本文的框架包括两个主要部分:基础组件和系统实现。基础组件包括:1) 上下文检索和生成,负责从外部知识源获取或生成相关的上下文信息;2) 上下文处理,负责对检索或生成的上下文进行清洗、过滤和转换;3) 上下文管理,负责维护和更新上下文信息,以便后续使用。系统实现包括:1) 检索增强生成(RAG),利用检索到的上下文信息来增强LLM的生成能力;2) 记忆系统,利用外部记忆模块来存储和检索长期上下文信息;3) 工具集成推理,利用外部工具来辅助LLM进行推理和决策。

关键创新:本文最重要的创新在于提出了“上下文工程”的概念,并将其定义为一个独立的学科。通过对上下文工程进行系统性的分解和分析,本文为LLM的上下文优化提供了一个更加结构化和可控的方法。此外,本文还指出了LLM在理解复杂上下文和生成复杂输出之间存在能力不对称的问题,并将其作为未来研究的关键方向。

关键设计:本文是一篇综述文章,没有提出新的算法或模型。其关键设计在于对现有研究进行分类和总结,并构建了一个统一的框架。具体的参数设置、损失函数、网络结构等技术细节取决于被综述的论文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

本文对超过1400篇相关论文进行了系统性分析,揭示了当前大语言模型在上下文理解和生成能力上的不对称性。通过构建上下文工程的技术路线图,为未来的研究方向提供了清晰的指导,并强调了提升LLM生成复杂、长篇幅输出能力的重要性。

🎯 应用场景

该研究成果可应用于各种需要大语言模型进行复杂推理和生成的场景,例如智能客服、知识问答、内容创作、代码生成等。通过优化上下文信息,可以显著提升LLM的性能和可靠性,从而提高用户体验和工作效率。未来的研究可以进一步探索如何自动地进行上下文工程,以适应不同的任务和领域。

📄 摘要(原文)

The performance of Large Language Models (LLMs) is fundamentally determined by the contextual information provided during inference. This survey introduces Context Engineering, a formal discipline that transcends simple prompt design to encompass the systematic optimization of information payloads for LLMs. We present a comprehensive taxonomy decomposing Context Engineering into its foundational components and the sophisticated implementations that integrate them into intelligent systems. We first examine the foundational components: context retrieval and generation, context processing and context management. We then explore how these components are architecturally integrated to create sophisticated system implementations: retrieval-augmented generation (RAG), memory systems and tool-integrated reasoning, and multi-agent systems. Through this systematic analysis of over 1400 research papers, our survey not only establishes a technical roadmap for the field but also reveals a critical research gap: a fundamental asymmetry exists between model capabilities. While current models, augmented by advanced context engineering, demonstrate remarkable proficiency in understanding complex contexts, they exhibit pronounced limitations in generating equally sophisticated, long-form outputs. Addressing this gap is a defining priority for future research. Ultimately, this survey provides a unified framework for both researchers and engineers advancing context-aware AI.