PAACE: A Plan-Aware Automated Agent Context Engineering Framework

📄 arXiv: 2512.16970v1 📥 PDF

作者: Kamer Ali Yuksel

分类: cs.AI, cs.CL, cs.LG, cs.MA

发布日期: 2025-12-18


💡 一句话要点

PAACE:一种计划感知的自动化Agent上下文工程框架,提升Agent在复杂任务中的性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 上下文工程 计划感知 上下文压缩 知识蒸馏 自动化任务 长时程任务 Agent推理

📋 核心要点

  1. 现有LLM Agent在复杂任务中面临上下文快速膨胀的问题,导致注意力稀释和推理成本增加。
  2. PAACE框架通过计划感知的上下文工程,包括相关性建模、结构分析、指令优化和功能保持压缩,来解决该问题。
  3. 实验表明,PAACE在多个长时程任务中显著提升了Agent的准确性,并降低了上下文负载和推理成本。

📝 摘要(中文)

大型语言模型(LLM)Agent越来越多地部署在复杂的多步骤工作流程中,这些流程涉及规划、工具使用、反思以及与外部知识系统的交互。这些工作流程生成快速扩展的上下文,必须对其进行管理、转换和压缩,以保持保真度、避免注意力稀释并降低推理成本。先前关于摘要和查询感知压缩的工作在很大程度上忽略了Agent推理的多步骤、计划感知的性质。本文介绍PAACE(Plan-Aware Automated Context Engineering),这是一个统一的框架,通过next-k-task相关性建模、计划结构分析、指令协同优化和功能保持压缩来优化LLM Agent的演进状态。PAACE包括(1)PAACE-Syn,一个大规模的合成Agent工作流程生成器,用逐步压缩监督进行注释,以及(2)PAACE-FT,一系列从成功的教师演示中提炼出的、计划感知的压缩器。在长时程基准测试(AppWorld、OfficeBench和8-Objective QA)上的实验表明,PAACE始终如一地提高了Agent的正确性,同时显着降低了上下文负载。在AppWorld上,PAACE实现了比所有基线更高的准确率,同时降低了峰值上下文和累积依赖性。在OfficeBench和多跳QA上,PAACE提高了准确率和F1,减少了步骤、降低了峰值tokens并减少了注意力依赖性。精馏的PAACE-FT保留了教师97%的性能,同时将推理成本降低了一个数量级以上,从而能够使用紧凑模型实际部署计划感知的压缩。

🔬 方法详解

问题定义:LLM Agent在复杂任务中需要处理大量的上下文信息,这些信息包括历史交互、规划步骤、工具使用记录等。随着任务的进行,上下文会迅速膨胀,导致Agent的推理效率降低,甚至影响其决策的准确性。现有的上下文压缩方法,如摘要和查询感知压缩,通常忽略了Agent推理过程中的多步骤和计划感知特性,无法有效地处理Agent的上下文信息。

核心思路:PAACE的核心思路是利用Agent的计划信息来指导上下文的压缩和优化。通过分析Agent的计划结构,可以识别出与当前任务最相关的上下文信息,并对其进行保留和增强。同时,PAACE还通过指令协同优化和功能保持压缩等技术,进一步提高上下文的质量和效率。这样,Agent就可以在保持决策准确性的前提下,减少上下文负载和推理成本。

技术框架:PAACE框架主要包括两个部分:PAACE-Syn和PAACE-FT。PAACE-Syn是一个大规模的合成Agent工作流程生成器,用于生成带有逐步压缩监督信息的训练数据。PAACE-FT是一系列从成功的教师演示中提炼出的、计划感知的压缩器,用于实际的上下文压缩。整个流程包括:1. 使用PAACE-Syn生成带有压缩标注的合成数据;2. 使用合成数据训练PAACE-FT压缩器;3. 在实际任务中,Agent根据计划信息,使用PAACE-FT压缩上下文,并进行推理和决策。

关键创新:PAACE的关键创新在于其计划感知的上下文工程方法。与现有的上下文压缩方法相比,PAACE能够更好地理解Agent的推理过程,并根据计划信息来选择和优化上下文。此外,PAACE还提出了next-k-task相关性建模、计划结构分析、指令协同优化和功能保持压缩等一系列新的技术,进一步提高了上下文压缩的效率和质量。

关键设计:PAACE-Syn的设计关键在于如何生成高质量的合成数据。它通过模拟Agent在不同任务中的行为,并根据任务的难度和复杂度,生成不同长度和结构的上下文信息。PAACE-FT的设计关键在于如何有效地利用计划信息来指导上下文压缩。它通过引入计划结构分析模块,来识别与当前任务最相关的上下文信息,并对其进行保留和增强。此外,PAACE-FT还采用了蒸馏训练的方法,从教师模型中学习压缩策略,从而提高压缩器的性能和效率。

📊 实验亮点

在AppWorld上,PAACE的准确率高于所有基线,同时降低了峰值上下文和累积依赖性。在OfficeBench和多跳QA上,PAACE提高了准确率和F1,减少了步骤、降低了峰值tokens并减少了注意力依赖性。精馏的PAACE-FT保留了教师97%的性能,同时将推理成本降低了一个数量级以上,这表明PAACE在提高Agent性能的同时,也能够有效地降低计算成本。

🎯 应用场景

PAACE框架可应用于各种需要LLM Agent进行复杂任务处理的场景,例如智能客服、自动化办公、机器人控制等。通过优化Agent的上下文管理,可以提高Agent的推理效率和决策准确性,从而提升用户体验和工作效率。未来,PAACE还可以与其他技术相结合,例如知识图谱、强化学习等,进一步扩展其应用范围。

📄 摘要(原文)

Large Language Model (LLM) agents are increasingly deployed in complex, multi-step workflows involving planning, tool use, reflection, and interaction with external knowledge systems. These workflows generate rapidly expanding contexts that must be curated, transformed, and compressed to maintain fidelity, avoid attention dilution, and reduce inference cost. Prior work on summarization and query-aware compression largely ignores the multi-step, plan-aware nature of agentic reasoning. In this work, we introduce PAACE (Plan-Aware Automated Context Engineering), a unified framework for optimizing the evolving state of LLM agents through next-k-task relevance modeling, plan-structure analysis, instruction co-refinement, and function-preserving compression. PAACE comprises (1) PAACE-Syn, a large-scale generator of synthetic agent workflows annotated with stepwise compression supervision, and (2) PAACE-FT, a family of distilled, plan-aware compressors trained from successful teacher demonstrations. Experiments on long-horizon benchmarks (AppWorld, OfficeBench, and 8-Objective QA) demonstrate that PAACE consistently improves agent correctness while substantially reducing context load. On AppWorld, PAACE achieves higher accuracy than all baselines while lowering peak context and cumulative dependency. On OfficeBench and multi-hop QA, PAACE improves both accuracy and F1, achieving fewer steps, lower peak tokens, and reduced attention dependency. Distilled PAACE-FT retains 97 percent of the teacher's performance while reducing inference cost by over an order of magnitude, enabling practical deployment of plan-aware compression with compact models.