GAP: Graph-Based Agent Planning with Parallel Tool Use and Reinforcement Learning

作者: Jiaqi Wu, Qinlao Zhao, Zefeng Chen, Kai Qin, Yifei Zhao, Xueqian Wang, Yuhang Yao

分类: cs.AI, cs.CL

发布日期: 2025-10-29

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于图的智能体规划GAP，通过并行工具使用和强化学习提升多步推理效率。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图智能体规划 并行工具使用 强化学习 多跳问答 任务分解 依赖关系建模

📋 核心要点

现有智能体方法依赖顺序推理和执行，无法有效利用子任务间的并行性，导致工具使用效率低下。
GAP框架通过图建模显式表示任务依赖，使智能体能够自适应地并行或串行地执行工具。
实验表明，GAP在多跳问答任务上显著优于ReAct基线，并大幅提升了工具调用效率。

📝 摘要（中文）

本文提出了一种基于图的智能体规划框架（GAP），旨在解决现有基于大型语言模型（LLM）的智能体在复杂任务解决中工具操作效率低下的问题。现有方法如ReAct依赖于顺序推理和执行，无法充分利用独立子任务之间的并行性。GAP通过图建模显式地表示任务间的依赖关系，从而实现自适应的并行和串行工具执行。该方法训练智能体基础模型将复杂任务分解为具有依赖关系的子任务图，自主决定哪些工具可以并行执行，哪些必须遵循顺序依赖。为了训练GAP，我们构建了一个高质量的图规划轨迹数据集，来源于多跳问答（MHQA）基准。我们采用两阶段训练策略：在数据集上进行监督微调（SFT），然后使用基于正确性的奖励函数，在策略性采样的查询上进行强化学习（RL），最大化基于工具推理的价值。在MHQA数据集上的实验结果表明，GAP显著优于传统的ReAct基线，尤其是在多步检索任务中，并通过智能并行化显著提高了工具调用效率。

🔬 方法详解

问题定义：现有基于LLM的智能体，如ReAct，在解决复杂任务时，通常采用顺序推理和执行的方式。这种方式忽略了任务中可能存在的并行性，导致工具利用率低，推理效率不高，尤其是在需要多步推理的场景下。

核心思路：GAP的核心思路是将复杂任务分解为子任务，并用图结构显式地建模子任务之间的依赖关系。通过分析任务依赖图，智能体可以自主决定哪些子任务可以并行执行，哪些必须串行执行，从而优化工具的使用顺序和效率。

技术框架：GAP框架包含以下几个主要模块：1) 任务分解模块：将复杂任务分解为多个子任务。2) 依赖关系建模模块：构建子任务之间的依赖关系图。3) 规划模块：基于依赖关系图，生成工具执行计划，确定并行和串行执行的子任务。4) 执行模块：按照执行计划，调用相应的工具完成子任务。5) 训练模块：通过监督微调和强化学习，优化智能体的任务分解、依赖关系建模和规划能力。

关键创新：GAP最重要的创新在于引入了图结构来显式地建模任务依赖关系，从而实现了自适应的并行和串行工具执行。与传统的顺序执行方法相比，GAP能够更有效地利用工具，提高推理效率。

关键设计：GAP的关键设计包括：1) 高质量的图规划轨迹数据集，用于监督微调。2) 基于正确性的奖励函数，用于强化学习，鼓励智能体生成正确的执行计划。3) 两阶段训练策略，先通过监督微调学习任务分解和依赖关系建模，再通过强化学习优化规划能力。具体的网络结构和参数设置在论文中未详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GAP在多跳问答任务上显著优于传统的ReAct基线。具体而言，GAP在多步检索任务上的性能提升尤为明显，同时通过智能并行化，大幅提高了工具调用效率。具体的性能数据和提升幅度在论文中未给出明确的数值，属于未知信息。

🎯 应用场景

GAP框架可应用于各种需要复杂推理和工具使用的场景，例如智能客服、自动化报告生成、科学研究辅助等。通过提高工具使用效率和任务完成准确率，GAP能够显著提升这些应用的性能和用户体验，并有望推动智能体技术在更广泛领域的应用。

📄 摘要（原文）

Autonomous agents powered by large language models (LLMs) have shown impressive capabilities in tool manipulation for complex task-solving. However, existing paradigms such as ReAct rely on sequential reasoning and execution, failing to exploit the inherent parallelism among independent sub-tasks. This sequential bottleneck leads to inefficient tool utilization and suboptimal performance in multi-step reasoning scenarios. We introduce Graph-based Agent Planning (GAP), a novel framework that explicitly models inter-task dependencies through graph-based planning to enable adaptive parallel and serial tool execution. Our approach trains agent foundation models to decompose complex tasks into dependency-aware sub-task graphs, autonomously determining which tools can be executed in parallel and which must follow sequential dependencies. This dependency-aware orchestration achieves substantial improvements in both execution efficiency and task accuracy. To train GAP, we construct a high-quality dataset of graph-based planning traces derived from the Multi-Hop Question Answering (MHQA) benchmark. We employ a two-stage training strategy: supervised fine-tuning (SFT) on the curated dataset, followed by reinforcement learning (RL) with a correctness-based reward function on strategically sampled queries where tool-based reasoning provides maximum value. Experimental results on MHQA datasets demonstrate that GAP significantly outperforms traditional ReAct baselines, particularly on multi-step retrieval tasks, while achieving dramatic improvements in tool invocation efficiency through intelligent parallelization. The project page is available at: https://github.com/WJQ7777/Graph-Agent-Planning.

GAP: Graph-Based Agent Planning with Parallel Tool Use and Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理