PseudoAct: Leveraging Pseudocode Synthesis for Flexible Planning and Action Control in Large Language Model Agents

📄 arXiv: 2602.23668v1 📥 PDF

作者: Yihan, Wen, Xin Chen

分类: cs.AI, eess.SY

发布日期: 2026-02-27


💡 一句话要点

PseudoAct:利用伪代码生成提升LLM Agent的规划能力和动作控制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 伪代码生成 长时程规划 动作控制 控制流 决策逻辑

📋 核心要点

  1. 现有LLM Agent在长时程任务中面临冗余动作、推理不稳定和token消耗高等问题。
  2. PseudoAct通过生成伪代码计划,显式编码控制流,指导Agent的动作执行,提升规划能力。
  3. 实验表明,PseudoAct在FEVER数据集上成功率提升20.93%,并在HotpotQA上达到新的SOTA。

📝 摘要(中文)

大型语言模型(LLM)Agent通常依赖于反应式决策范式,例如ReAct,根据不断增长的执行历史选择动作。虽然对于短任务有效,但这些方法在涉及分支、迭代或多工具协调的复杂长时程任务中,经常导致冗余的工具使用、不稳定的推理和高token消耗。为了解决这些限制,本文提出了一种名为PseudoAct的新框架,通过伪代码生成实现LLM Agent的灵活规划和动作控制。PseudoAct利用LLM将任务解决策略表达为代码的能力,合成一个结构化的伪代码计划,将任务分解为子任务,并显式编码控制流,包括序列、条件、循环、并行组合以及这些逻辑原语的组合。然后通过遵循这个全局计划来执行动作,使决策逻辑清晰且时间上连贯。这种设计减少了冗余动作,防止了无限循环,并避免了无信息的替代方案探索,从而实现了持续高效的长时程决策。在基准数据集上的实验表明,我们的方法显著优于现有的反应式Agent方法,在FEVER上实现了20.93%的成功率绝对提升,并在HotpotQA上创造了新的state-of-the-art。

🔬 方法详解

问题定义:现有LLM Agent在处理复杂长时程任务时,通常采用反应式决策模式,例如ReAct。这种模式依赖于不断增长的执行历史来选择动作,容易导致冗余的工具调用、不稳定的推理过程,以及过高的token消耗。尤其是在涉及分支、迭代和多工具协调的任务中,这些问题会更加突出,严重影响Agent的效率和可靠性。

核心思路:PseudoAct的核心思路是利用LLM生成伪代码来显式地规划任务执行流程。通过将任务分解为子任务,并用伪代码描述子任务之间的控制流(例如,顺序、条件、循环),Agent可以更好地理解任务的整体结构,从而做出更明智的决策,避免不必要的探索和重复操作。这种方法将决策逻辑从隐式变为显式,提高了Agent的可解释性和可控性。

技术框架:PseudoAct框架主要包含两个阶段:伪代码生成阶段和动作执行阶段。在伪代码生成阶段,LLM接收任务描述,并生成一个结构化的伪代码计划,该计划详细描述了任务的分解和控制流。在动作执行阶段,Agent按照伪代码计划逐步执行,根据计划中的条件和循环结构,选择合适的工具和动作。整个过程类似于程序执行,保证了任务执行的逻辑性和连贯性。

关键创新:PseudoAct的关键创新在于将伪代码引入到LLM Agent的规划过程中。与传统的反应式方法相比,PseudoAct通过伪代码显式地表达了任务的结构和控制流,使得Agent能够进行全局规划,避免了局部最优解。此外,伪代码还提高了Agent的可解释性,使得人们更容易理解Agent的决策过程。

关键设计:PseudoAct的关键设计包括伪代码的语法结构和LLM的prompt设计。伪代码需要能够表达各种控制流结构,例如顺序、条件、循环和并行。LLM的prompt需要引导LLM生成符合语法规范且能够有效解决任务的伪代码。具体的参数设置和网络结构选择取决于所使用的LLM模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PseudoAct在多个基准数据集上取得了显著的性能提升。在FEVER数据集上,PseudoAct的成功率比现有方法提高了20.93%。在HotpotQA数据集上,PseudoAct创造了新的state-of-the-art。这些结果证明了PseudoAct在长时程规划和动作控制方面的有效性。

🎯 应用场景

PseudoAct框架具有广泛的应用前景,可以应用于各种需要长时程规划和复杂决策的任务中,例如机器人控制、自动化流程设计、智能助手等。通过提高Agent的规划能力和动作控制能力,PseudoAct可以显著提升这些应用的效率和可靠性,并降低开发和维护成本。未来,PseudoAct还可以与其他技术相结合,例如强化学习和知识图谱,进一步提升Agent的智能水平。

📄 摘要(原文)

Large language model (LLM) agents typically rely on reactive decision-making paradigms such as ReAct, selecting actions conditioned on growing execution histories. While effective for short tasks, these approaches often lead to redundant tool usage, unstable reasoning, and high token consumption in complex long-horizon tasks involving branching, iteration, or multi-tool coordination. To address these limitations, this paper introduces PseudoAct, a novel framework for flexible planning and action control in LLM agents through pseudocode synthesis. Leveraging the ability of LLMs to express task-solving strategies as code, PseudoAct synthesizes a structured pseudocode plan that decomposes a task into subtasks and explicitly encodes control flow, including sequencing, conditionals, loops, parallel composition, and combinations of these logic primitives. Actions are then executed by following this global plan, making the decision logic explicit and temporally coherent. This design reduces redundant actions, prevents infinite loops, and avoids uninformative alternative exploration, enabling consistent and efficient long-horizon decision-making. Experiments on benchmark datasets show that our method significantly outperforms existing reactive agent approaches, achieving a 20.93% absolute gain in success rate on FEVER and setting a new state-of-the-art on HotpotQA.