AgentXRay: White-Boxing Agentic Systems via Workflow Reconstruction

📄 arXiv: 2602.05353v1 📥 PDF

作者: Ruijie Shi, Houbin Zhang, Yuecheng Han, Yuheng Wang, Jingru Fan, Runde Yang, Yufan Dang, Huatao Li, Dewen Liu, Yuan Cheng, Chen Qian

分类: cs.AI, cs.CL

发布日期: 2026-02-05


💡 一句话要点

AgentXRay:通过工作流重构实现Agentic系统的白盒化

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Agentic系统 工作流重构 可解释性 蒙特卡洛树搜索 红黑剪枝 黑盒系统 白盒化

📋 核心要点

  1. 现有agentic系统内部工作流程不透明,难以解释和控制,阻碍了用户理解和信任。
  2. AgentXRay通过Agentic工作流重构(AWR)任务,从黑盒系统的输入输出中合成可解释的替代工作流。
  3. AgentXRay采用蒙特卡洛树搜索和红黑剪枝机制,在保证代理相似性的同时,降低token消耗,实现更深度的探索。

📝 摘要(中文)

大型语言模型在复杂问题解决方面表现出强大的能力,但许多agentic系统由于其不透明的内部工作流程而难以解释和控制。虽然一些框架为协作提供了显式的架构,但许多已部署的agentic系统对用户来说就像黑盒一样。我们通过引入Agentic工作流重构(AWR)来解决这个问题,这是一个新的任务,旨在合成一个显式的、可解释的替代工作流,该工作流仅使用输入-输出访问来近似一个黑盒系统。我们提出了AgentXRay,这是一个基于搜索的框架,它将AWR公式化为链式结构工作流空间中离散代理角色和工具调用的组合优化问题。与模型蒸馏不同,AgentXRay生成可编辑的白盒工作流,这些工作流在可观察的、基于输出的代理指标下匹配目标输出,而无需访问模型参数。为了导航巨大的搜索空间,AgentXRay采用蒙特卡洛树搜索,并通过基于评分的红黑剪枝机制进行增强,该机制动态地将代理质量与搜索深度相结合。跨不同领域的实验表明,与未剪枝的搜索相比,AgentXRay实现了更高的代理相似性并减少了token消耗,从而在固定的迭代预算下实现了更深入的工作流探索。

🔬 方法详解

问题定义:论文旨在解决agentic系统内部工作流程不透明的问题,即在仅有输入输出访问权限的情况下,如何理解和控制这些黑盒系统。现有方法要么依赖于显式架构(但许多系统并非如此),要么难以提供可解释的内部机制,使得用户难以信任和调试这些系统。

核心思路:论文的核心思路是将黑盒agentic系统的行为近似为一个显式的、可编辑的白盒工作流。通过搜索不同的代理角色和工具调用序列,找到一个与黑盒系统在输入输出上表现相似的工作流。这种方法无需访问模型参数,而是依赖于可观察的输出结果进行优化。

技术框架:AgentXRay框架包含以下主要模块:1) 工作流空间定义:定义代理角色和工具调用的组合方式,形成一个链式结构的工作流空间。2) 代理指标:定义一个基于输出的代理指标,用于评估候选工作流与目标黑盒系统的相似度。3) 搜索算法:采用蒙特卡洛树搜索(MCTS)在工作流空间中进行搜索,寻找最优工作流。4) 红黑剪枝机制:通过动态地将代理质量与搜索深度相结合,对MCTS进行剪枝,减少搜索空间。

关键创新:AgentXRay的关键创新在于提出了Agentic工作流重构(AWR)任务,并将其形式化为组合优化问题。此外,红黑剪枝机制能够有效地平衡搜索的广度和深度,在有限的计算资源下找到更好的解决方案。与模型蒸馏不同,AgentXRay生成的是可编辑的白盒工作流,更易于理解和修改。

关键设计:红黑剪枝机制是AgentXRay的关键设计之一。它基于一个评分函数,该函数结合了代理质量(即候选工作流与目标输出的相似度)和搜索深度。评分高的节点被认为是更有希望的,并被保留(红色节点),而评分低的节点则被剪枝(黑色节点)。这种动态剪枝策略能够有效地减少搜索空间,提高搜索效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AgentXRay在多个领域实现了比未剪枝搜索更高的代理相似性,并且显著降低了token消耗。这意味着AgentXRay能够在固定的计算资源下,更有效地探索工作流空间,找到更接近目标黑盒系统行为的白盒替代方案。具体的性能提升数据在论文中进行了详细展示。

🎯 应用场景

AgentXRay可应用于各种agentic系统的可解释性分析和调试。例如,可以用于理解和改进智能客服、自动化流程和决策支持系统。通过重构其内部工作流程,可以更容易地发现潜在的错误和瓶颈,并进行优化。此外,该方法还可以用于安全审计,评估agentic系统是否存在潜在的风险。

📄 摘要(原文)

Large Language Models have shown strong capabilities in complex problem solving, yet many agentic systems remain difficult to interpret and control due to opaque internal workflows. While some frameworks offer explicit architectures for collaboration, many deployed agentic systems operate as black boxes to users. We address this by introducing Agentic Workflow Reconstruction (AWR), a new task aiming to synthesize an explicit, interpretable stand-in workflow that approximates a black-box system using only input--output access. We propose AgentXRay, a search-based framework that formulates AWR as a combinatorial optimization problem over discrete agent roles and tool invocations in a chain-structured workflow space. Unlike model distillation, AgentXRay produces editable white-box workflows that match target outputs under an observable, output-based proxy metric, without accessing model parameters. To navigate the vast search space, AgentXRay employs Monte Carlo Tree Search enhanced by a scoring-based Red-Black Pruning mechanism, which dynamically integrates proxy quality with search depth. Experiments across diverse domains demonstrate that AgentXRay achieves higher proxy similarity and reduces token consumption compared to unpruned search, enabling deeper workflow exploration under fixed iteration budgets.