GRAFT: Graph-Tokenized LLMs for Tool Planning
作者: Xinyi Gao, Xinyu Ren, Junliang Yu, Tong Chen, Quoc Viet Hung Nguyen, Hongzhi Yin
分类: cs.LG
发布日期: 2026-05-12
💡 一句话要点
GRAFT:图结构Token化LLM用于工具规划,解决依赖关系建模难题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 工具规划 图神经网络 依赖关系建模 Token化 上下文蒸馏 强化学习
📋 核心要点
- 现有方法在工具规划中依赖外部图结构,难以将工具选择与子任务结构对齐,导致计划违反依赖关系。
- GRAFT通过图结构Token化,将工具图内化到LLM中,并在表示空间学习工具依赖关系,实现依赖感知规划。
- 实验表明,GRAFT在工具规划的序列匹配和依赖合法性方面均达到SOTA,提升了复杂工作流的可靠性。
📝 摘要(中文)
大型语言模型(LLM)越来越多地被用于通过选择和协调外部工具来完成复杂的任务。这需要将工具选择与子任务意图对齐,同时满足工具之间有方向性的执行依赖关系。为了实现这一点,现有的方法将这些依赖关系建模为工具图,并通过检索、序列化或提示级别的注入将图与LLM结合。然而,这些外部图使用策略都遵循一种匹配范式,这种范式常常无法将工具选择与底层的子任务结构对齐,从而产生语义上合理但违反图约束的计划。错误累积进一步加剧了这个问题,即早期不正确的工具选择会将计划转移到无效的图状态,并导致后续的预测偏离有效的执行路径。为了解决这些挑战,我们提出了GRAFT,一个用于依赖感知工具规划的图结构Token化语言模型框架。GRAFT通过将每个工具节点映射到一个专用的特殊token,并在表示空间中学习有向工具依赖关系,从而将工具图内部化。它进一步引入了on-policy工具上下文蒸馏,在模型自身采样的轨迹上训练模型,同时提取逐步规划信号。实验表明,GRAFT在精确序列匹配和依赖合法性方面实现了最先进的性能,支持在复杂工作流程中更可靠的LLM工具规划。
🔬 方法详解
问题定义:现有方法在利用LLM进行工具规划时,通常将工具依赖关系建模为图结构,并通过检索、序列化或提示等方式将图信息注入LLM。然而,这些方法本质上是“匹配”范式,难以保证工具选择与子任务意图的一致性,容易产生语义合理但违反图约束的计划。此外,早期错误的工具选择会导致后续预测偏离有效路径,产生累积误差。
核心思路:GRAFT的核心思路是将工具图“内化”到LLM中,而不是依赖外部的图结构。具体来说,GRAFT将每个工具节点映射为一个特殊的token,并在LLM的表示空间中学习工具之间的有向依赖关系。通过这种方式,模型可以直接在token层面感知工具之间的依赖关系,从而避免违反图约束的计划。
技术框架:GRAFT框架主要包含两个核心部分:图结构Token化和On-policy工具上下文蒸馏。首先,图结构Token化将工具图中的每个节点映射为一个特殊的token,并初始化这些token的embedding,使得相邻的工具节点在embedding空间中更接近。其次,On-policy工具上下文蒸馏利用模型自身采样的轨迹进行训练,通过蒸馏逐步规划信号,提高模型在复杂工作流中的规划能力。
关键创新:GRAFT最重要的创新在于将工具图内化到LLM中,通过图结构Token化在表示空间中学习工具依赖关系。这与现有方法依赖外部图结构进行匹配的范式有本质区别。GRAFT能够直接在token层面感知工具依赖关系,从而避免违反图约束的计划。
关键设计:GRAFT的关键设计包括:1) 使用特殊的token表示工具节点,并初始化这些token的embedding,使得相邻的工具节点在embedding空间中更接近。2) 引入On-policy工具上下文蒸馏,利用模型自身采样的轨迹进行训练,通过蒸馏逐步规划信号,提高模型在复杂工作流中的规划能力。具体的损失函数包括交叉熵损失和蒸馏损失,用于优化模型参数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GRAFT在工具规划任务中取得了显著的性能提升。在精确序列匹配方面,GRAFT超越了现有SOTA方法。更重要的是,GRAFT在依赖合法性方面表现出色,显著降低了违反工具依赖关系的概率,证明了其在复杂工作流中进行可靠工具规划的能力。具体数据需要在论文中查找。
🎯 应用场景
GRAFT在需要多步骤工具调用的复杂任务中具有广泛的应用前景,例如自动化软件开发、智能家居控制、科学研究流程自动化等。通过提高工具规划的可靠性和准确性,GRAFT可以显著提升这些应用的效率和用户体验,并降低出错风险。未来,GRAFT可以进一步扩展到更复杂的工具图结构和更广泛的应用领域。
📄 摘要(原文)
Large language models (LLMs) are increasingly used to complete complex tasks by selecting and coordinating external tools across multiple steps. This requires aligning tool choices with subtask intent while satisfying directional execution dependencies among tools. To do this, existing methods model these dependencies as tool graphs and incorporate the graphs with LLMs through retrieval, serialization, or prompt-level injection. However, these external graph-use strategies all follow a matching paradigm, which often fails to align tool choices with the underlying subtask structure, producing semantically plausible plans that violate graph constraints. This issue is further exacerbated by error accumulation, where an early incorrect tool selection shifts the plan into an invalid graph state and causes subsequent predictions to drift away from the valid execution path. To address these challenges, we propose GRAFT, a graph-tokenized language model framework for dependency-aware tool planning. GRAFT internalizes the tool graph by mapping each tool node to a dedicated special token and learning directed tool dependencies within the representation space. It further introduces on-policy tool context distillation, training the model on its own sampled trajectories while distilling stepwise planning signals. Experiments show that GRAFT achieves state-of-the-art performance in exact sequence matching and dependency legality, supporting more reliable LLM tool planning in complex workflows.