Tool-Call Dependency Structure is Linearly Decodable in LLM Agent Residual Streams

📄 arXiv: 2605.25310v1 📥 PDF

作者: Tianda Sun, Dimitar Kazakov

分类: cs.CL

发布日期: 2026-05-25

备注: 16 pages, 7 figures


💡 一句话要点

通过探针解码LLM Agent运行时工具调用依赖关系,揭示其线性可解码结构

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 工具调用 依赖图 结构探测 残差流

📋 核心要点

  1. 现有方法缺乏对LLM Agent运行时工具调用依赖关系的结构化理解,阻碍了对Agent内部工作机制的深入分析。
  2. 该论文提出了一种基于残差流的低容量边缘探针方法,用于解码LLM Agent的工具调用依赖图,揭示其内部表征。
  3. 实验表明,该方法在Qwen3-32B模型上表现出色,优于随机基线和位置基线,并验证了信号追踪抽象拓扑而非标识符。

📝 摘要(中文)

本文研究了工具型LLM Agent在运行时产生的工具调用轨迹,这些调用形成一个有向依赖图,其中先前的工具输出为后续调用提供参数。研究人员使用低容量的边缘探针,在Qwen3-32B的残差流中解码工具调用依赖图,其性能远超Hewitt-Liang随机标签控制和位置基线。通过反事实对比,发现该信号追踪的是抽象拓扑而非标识符值,并在独立的非子字符串预言机下复制。非位置组件在三个交互式多跳基准测试中复制,并随着调用顺序成为依赖关系的充分代理而衰减,在单次规划中消失。激活修补实验表明,表示在非修补边界传播,而非被动读取。据我们所知,这是首次对LLM Agent运行时工具调用依赖图进行结构探测。研究结论关注的是表征而非行为控制,并涵盖两个模型系列和一个主要领域。

🔬 方法详解

问题定义:现有方法主要关注静态代码或链式思考文本的结构探测,缺乏对LLM Agent运行时工具调用依赖关系的分析。这种依赖关系形成一个有向图,其中工具调用的顺序和参数传递关系至关重要。理解这种依赖关系有助于深入了解Agent的推理过程和决策机制。

核心思路:该论文的核心思路是利用残差流中的信息来解码工具调用依赖图。残差流被认为是LLM内部表征的关键载体,通过训练一个低容量的边缘探针,可以直接从残差流中提取工具调用之间的依赖关系。这种方法避免了直接分析Agent的输出文本,而是关注其内部状态。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 收集LLM Agent的工具调用轨迹数据;2) 提取残差流中的激活值;3) 训练一个低容量的边缘探针,用于预测工具调用之间的依赖关系;4) 使用反事实对比和激活修补等技术,验证探针提取的信号是否真正反映了依赖关系,而非其他因素(如位置信息或标识符值)。

关键创新:该论文的关键创新在于首次将结构探测技术应用于LLM Agent的运行时工具调用依赖图。与以往的研究不同,该研究关注的是Agent在执行任务时的动态行为,而非静态的代码或文本。此外,该研究还提出了一种基于残差流的解码方法,可以直接从LLM的内部状态中提取结构化信息。

关键设计:该研究的关键设计包括:1) 使用低容量的边缘探针,以避免过拟合;2) 使用Hewitt-Liang随机标签控制和位置基线作为对比,以评估探针的性能;3) 使用反事实对比,通过腐蚀值和扰动结构来验证探针提取的信号的可靠性;4) 使用激活修补技术,观察探针在不同层的行为,以了解依赖关系信息的传播过程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,低容量边缘探针能够有效解码Qwen3-32B模型中的工具调用依赖图,其性能远超随机基线和位置基线。反事实对比实验表明,探针提取的信号追踪的是抽象拓扑而非标识符值。激活修补实验揭示了依赖关系信息在模型内部的传播过程。

🎯 应用场景

该研究成果可应用于提升LLM Agent的可解释性和可控性。通过理解Agent内部的工具调用依赖关系,可以更好地调试和优化Agent的行为,并开发更可靠、更安全的智能体。此外,该研究还可以为开发更高效的Agent架构提供指导,例如,可以设计专门的模块来处理工具调用依赖关系。

📄 摘要(原文)

Tool-using LLM agents produce trajectories whose calls form a directed dependency graph: earlier tool outputs supply arguments to later calls. Whether this execution structure is represented inside the model is unknown; prior structural probes have targeted static code or chain-of-thought text, not an agent's run-time call graph. A low-capacity edge probe on the residual stream of Qwen3-32B decodes the tool-call dependency graph well above both a Hewitt--Liang random-label control and a positional baseline. A counterfactual contrast between value corruption and structural perturbation indicates the signal tracks abstract topology rather than identifier values, and replicates under an independent, non-substring oracle. The non-positional component replicates on three further interactive multi-hop benchmarks and attenuates as call order alone becomes a sufficient proxy for dependency, vanishing in single-shot planning. Per-layer activation patching shifts the probe at a later, non-patched boundary, evidence that the representation propagates rather than passively reads out, though the realised tool call does not move. To our knowledge this is the first structural probe of an LLM agent's runtime tool-call dependency graph. Our claims concern representation, not behavioural control, and span two model families and one primary domain.