Context, Reasoning, and Hierarchy: A Cost-Performance Study of Compound LLM Agent Design in an Adversarial POMDP

📄 arXiv: 2605.16205v1 📥 PDF

作者: Igor Bogdanov, Chung-Horng Lung, Thomas Kunz, Jie Gao, Adrian Taylor, Marzia Zaman

分类: cs.AI, cs.CL, cs.LG, cs.MA, eess.SY

发布日期: 2026-05-15

DOI: 10.1145/3786335.3813149


💡 一句话要点

在对抗性POMDP中,研究复合LLM Agent设计的成本效益,并提出优化策略。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 对抗性POMDP 成本效益分析 状态抽象 任务分解

📋 核心要点

  1. 现有方法在对抗性POMDP环境中部署LLM Agent时,缺乏设计选择的指导,难以平衡性能与推理成本。
  2. 论文提出通过程序化状态抽象、任务分解和避免过度审议来优化复合LLM Agent的设计,提升成本效益。
  3. 实验表明,程序化状态抽象显著提升性能,而过度审议会导致性能下降,分层分解结合上下文工程效果最佳。

📝 摘要(中文)

本文研究了在对抗性的部分可观察马尔可夫决策过程(POMDP)中部署复合LLM Agent的设计维度,包括Agent所见内容、推理方式以及跨组件的任务分解。由于缺乏关于哪些设计选择能够提高性能而非仅仅增加推理成本的指导,本文在CybORG CAGE-2(一个建模为POMDP的网络防御环境)中进行了一项受控研究。该环境奖励为非正,所有配置均在故障缓解模式下运行。评估涵盖五个模型家族、六个模型和十二个配置(3475个episode),并进行token级别的成本核算。研究中改变了上下文表示(原始观察与具有压缩历史的确定性状态跟踪层)、审议(自我提问、自我批评和自我改进工具,以及可选的思维链提示)以及分层分解(单体ReAct与委托给专门的子Agent)。研究发现:(1)程序化的状态抽象提供了最高的每token花费回报(RPTS),相比原始观察,平均回报提高了高达76%。(2)对于所有五个模型家族,在层级结构中分配审议工具会降低性能,最差情况下平均回报降低3.4倍,同时使用的token数量增加1.8-2.7倍,这种破坏性模式被称为审议级联。(3)对于大多数模型,没有审议的分层分解实现了最佳的绝对性能,并且上下文工程通常比审议更具成本效益。这些发现为结构化的对抗性POMDP提出了一个设计原则:投资于程序化基础设施和清晰的任务分解,而不是更深入的每个Agent推理,因为这些策略组合在一起时可能会相互干扰。

🔬 方法详解

问题定义:在对抗性的部分可观察马尔可夫决策过程(POMDP)中,如何设计复合LLM Agent以实现最佳的性能和成本效益是一个关键问题。现有的方法往往缺乏对不同设计选择(如上下文表示、推理方式和任务分解)的系统性分析,导致难以在性能和推理成本之间做出权衡。此外,过度依赖LLM的推理能力可能导致“审议级联”,反而降低性能。

核心思路:论文的核心思路是通过解耦上下文理解、任务分解和推理过程,并采用程序化的方式进行状态抽象和任务分解,从而降低对LLM推理能力的过度依赖。这种方法旨在通过更清晰的任务分解和更有效的上下文表示,提高Agent的性能和成本效益。

技术框架:整体框架包括以下几个主要模块:1) 环境交互模块:Agent与CybORG CAGE-2环境进行交互,获取观测信息。2) 上下文表示模块:将原始观测信息转换为压缩的状态表示,采用程序化的状态跟踪层。3) 任务分解模块:将复杂的任务分解为更小的子任务,分配给不同的子Agent(在分层结构中)。4) 推理模块:每个Agent根据其任务和上下文信息进行推理,并生成行动。5) 行动执行模块:将Agent的行动发送到环境中执行。

关键创新:最重要的技术创新点在于对“审议级联”现象的发现和避免。论文指出,过度依赖LLM的推理能力(如自我提问、自我批评)可能会导致性能下降,尤其是在分层结构中。因此,论文强调了程序化状态抽象和清晰任务分解的重要性,认为这些方法比更深入的Agent推理更具成本效益。

关键设计:论文的关键设计包括:1) 程序化状态抽象:使用确定性的状态跟踪层来压缩历史观测信息,减少LLM需要处理的上下文长度。2) 分层任务分解:将任务分解为更小的子任务,分配给专门的子Agent,降低每个Agent的推理复杂度。3) 审议工具的控制:限制或避免在分层结构中使用自我提问、自我批评等审议工具,以防止“审议级联”。4) 成本核算:对每个配置进行token级别的成本核算,评估其每token花费回报(RPTS)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,程序化的状态抽象能够显著提高Agent的性能,相比原始观察,平均回报提高了高达76%。此外,研究发现,在分层结构中分配审议工具会降低性能,最差情况下平均回报降低3.4倍,同时使用的token数量增加1.8-2.7倍。对于大多数模型,没有审议的分层分解实现了最佳的绝对性能。

🎯 应用场景

该研究成果可应用于网络安全、机器人控制、智能客服等领域,尤其是在需要Agent在复杂、不确定环境中进行决策的场景。通过优化LLM Agent的设计,可以提高其性能、降低成本,并提升其在实际应用中的可靠性和效率。未来的研究可以进一步探索更有效的状态抽象方法和任务分解策略。

📄 摘要(原文)

Deploying compound LLM agents in adversarial, partially observable sequential environments requires navigating several design dimensions: (1) what the agent sees, (2) how it reasons, and (3) how tasks are decomposed across components. Yet practitioners lack guidance on which design choices improve performance versus merely increase inference costs. We present a controlled study of compound LLM agent design in CybORG CAGE-2, a cyber defense environment modeled as a Partially Observable Markov Decision Process (POMDP). Reward is non-positive, so all configurations operate in a failure-mitigation mode. Our evaluation spans five model families, six models, and twelve configurations (3,475 episodes) with token-level cost accounting. We vary context representation (raw observations vs. a deterministic state-tracking layer with compressed history), deliberation (self-questioning, self-critique, and self-improvement tools, with optional chain-of-thought prompting), and hierarchical decomposition (monolithic ReAct vs. delegation to specialized sub-agents). We find that: (1) Programmatic state abstraction delivers the largest returns per token spent (RPTS), improving mean return by up to 76% over raw observations. (2) Distributing deliberation tools across a hierarchy degrades performance relative to hierarchy alone for all five model families, reaching up to 3.4$\times$ worse mean return while using 1.8-2.7$\times$ more tokens. We call this destructive pattern a deliberation cascade. (3) Hierarchical decomposition without deliberation achieves the best absolute performance for most models, and context engineering is generally more cost-effective than deliberation. These findings suggest a design principle for structured adversarial POMDPs: invest in programmatic infrastructure and clean task decomposition rather than deeper per-agent reasoning, as these strategies can interfere when combined.