Beyond Entangled Planning: Task-Decoupled Planning for Long-Horizon Agents

📄 arXiv: 2601.07577v1 📥 PDF

作者: Yunfan Li, Bingbing Xu, Xueyun Tian, Xiucheng Xu, Huawei Shen

分类: cs.AI

发布日期: 2026-01-12


💡 一句话要点

提出任务解耦规划(TDP)框架,提升长程Agent任务执行的鲁棒性和效率

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长程Agent 任务解耦 规划 大型语言模型 上下文纠缠

📋 核心要点

  1. 现有长程Agent规划方法存在上下文纠缠问题,导致认知负担重,局部错误易传播,难以恢复。
  2. 论文提出任务解耦规划(TDP)框架,将任务分解为子目标DAG,在子任务层面进行规划和执行,隔离错误。
  3. 实验表明,TDP在多个任务上优于现有基线,并显著降低了token消耗,提升了鲁棒性和效率。

📝 摘要(中文)

大型语言模型(LLMs)的进步使得Agent能够自主执行复杂的长程任务,但规划仍然是可靠任务执行的主要瓶颈。现有方法通常属于两种范式:步进式规划,反应迅速但目光短浅;以及一次性规划,预先生成完整计划但容易因执行错误而崩溃。这两种范式都存在上下文纠缠的问题,Agent必须推理跨越多个子任务的整体历史。这种纠缠增加了认知负担,并使局部错误在原本独立的决策中传播,导致恢复的计算成本很高。为了解决这个问题,我们提出了任务解耦规划(TDP),这是一个无需训练的框架,用任务解耦代替纠缠推理。TDP通过Supervisor将任务分解为子目标的有向无环图(DAG)。通过使用具有限定上下文的Planner和Executor,TDP将推理和重新规划限制在活动的子任务中。这种隔离可以防止错误传播,并在不中断工作流程的情况下在本地纠正偏差。在TravelPlanner、ScienceWorld和HotpotQA上的结果表明,TDP优于强大的基线,同时减少了高达82%的token消耗,表明子任务解耦提高了长程Agent的鲁棒性和效率。

🔬 方法详解

问题定义:现有长程Agent规划方法,如步进式规划和一次性规划,都存在上下文纠缠的问题。Agent需要维护和推理一个包含所有历史步骤的庞大上下文,这增加了计算负担,并且使得局部错误容易传播到后续步骤,导致整个计划失败。现有的方法难以有效地处理长程任务中的不确定性和错误。

核心思路:论文的核心思路是将复杂的长程任务分解为一系列相对独立的子任务,并使用有向无环图(DAG)来表示这些子任务之间的依赖关系。通过将规划和执行的范围限制在当前活动的子任务中,可以有效地减少上下文纠缠,并隔离错误,从而提高Agent的鲁棒性和效率。

技术框架:TDP框架包含三个主要模块:Supervisor、Planner和Executor。Supervisor负责将长程任务分解为子任务DAG,并确定子任务之间的依赖关系。Planner负责在当前子任务的上下文中生成执行计划。Executor负责执行Planner生成的计划,并根据执行结果更新环境状态。整个流程是:Supervisor分解任务 -> Planner针对当前子任务规划 -> Executor执行 -> 根据执行结果更新状态,并决定下一个执行的子任务,循环直到任务完成。

关键创新:TDP的关键创新在于任务解耦的思想。通过将长程任务分解为独立的子任务,并限制规划和执行的范围,可以有效地减少上下文纠缠,并隔离错误。这使得Agent能够更加专注于当前的任务,并更容易从错误中恢复。与现有方法相比,TDP不需要进行额外的训练,可以直接应用于各种长程任务。

关键设计:Supervisor使用LLM进行任务分解,输出子任务DAG。Planner和Executor也使用LLM,但其上下文仅限于当前子任务。论文没有特别强调特定的损失函数或网络结构,重点在于任务解耦的整体框架设计。子任务的粒度是一个重要的设计选择,需要根据具体的任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TDP在TravelPlanner、ScienceWorld和HotpotQA等任务上均优于现有的基线方法。尤其是在token消耗方面,TDP最多可以减少82%,这表明任务解耦可以显著提高Agent的效率。此外,TDP在处理错误和不确定性方面也表现出更强的鲁棒性。

🎯 应用场景

该研究成果可应用于各种需要长程规划和执行的Agent任务,例如机器人导航、自动化客服、智能家居控制、游戏AI等。通过任务解耦,可以提高Agent在复杂环境中的适应性和鲁棒性,使其能够更好地完成各种任务。

📄 摘要(原文)

Recent advances in large language models (LLMs) have enabled agents to autonomously execute complex, long-horizon tasks, yet planning remains a primary bottleneck for reliable task execution. Existing methods typically fall into two paradigms: step-wise planning, which is reactive but often short-sighted; and one-shot planning, which generates a complete plan upfront yet is brittle to execution errors. Crucially, both paradigms suffer from entangled contexts, where the agent must reason over a monolithic history spanning multiple sub-tasks. This entanglement increases cognitive load and lets local errors propagate across otherwise independent decisions, making recovery computationally expensive. To address this, we propose Task-Decoupled Planning (TDP), a training-free framework that replaces entangled reasoning with task decoupling. TDP decomposes tasks into a directed acyclic graph (DAG) of sub-goals via a Supervisor. Using a Planner and Executor with scoped contexts, TDP confines reasoning and replanning to the active sub-task. This isolation prevents error propagation and corrects deviations locally without disrupting the workflow. Results on TravelPlanner, ScienceWorld, and HotpotQA show that TDP outperforms strong baselines while reducing token consumption by up to 82%, demonstrating that sub-task decoupling improves both robustness and efficiency for long-horizon agents.