PrefixGuard: From LLM-Agent Traces to Online Failure-Warning Monitors

作者: Xinmiao Huang, Jinwei Hu, Rajarshi Roy, Changshun Wu, Yi Dong, Xiaowei Huang

分类: cs.AI

发布日期: 2026-05-07

备注: Under Review

💡 一句话要点

PrefixGuard：从LLM-Agent轨迹到在线故障预警监控器

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 在线监控 故障预警 轨迹分析 事件抽象

📋 核心要点

现有LLM Agent在复杂任务中，最终结果检查滞后，缺乏在线预警机制，手工事件模式脆弱，LLM判断成本高。
PrefixGuard通过离线StepView归纳和有监督监控器训练，从原始轨迹中学习事件抽象和风险评分，实现轻量级在线预警。
实验表明，PrefixGuard在多个基准测试中显著优于原始文本对照组和LLM判断，AUPRC平均提升+0.137。

📝 摘要（中文）

大型语言模型（LLM）Agent现在执行需要使用工具的长期任务，而最终结果的检查往往滞后，无法及时干预。在线预警需要对异构轨迹进行轻量级的前缀监控，但手工编写的事件模式脆弱且部署时LLM判断成本高昂。我们介绍了PrefixGuard，一个轨迹到监控器的框架，包含离线的StepView归纳步骤和有监督的监控器训练。StepView从原始轨迹样本中归纳出确定性的类型化步骤适配器，监控器从终端结果中学习事件抽象和前缀风险评分器。在WebArena、$τ^2$-Bench、SkillsBench和TerminalBench上，最强的PrefixGuard监控器达到了0.900/0.710/0.533/0.557的AUPRC。在使用每个表示中最强后端的情况下，它们比原始文本对照组平均提高了+0.137 AUPRC。在相同的前缀预警协议下，LLM判断仍然明显较弱。我们还推导出了基于分数的精确率-召回率曲线下面积（AUPRC）的可观测性上限，该上限将监控器误差与观察到的前缀中缺乏证据的故障区分开来。对于有限状态审计，事后确定性有限自动机（DFA）提取在WebArena和$τ^2$-Bench上仍然紧凑（29和20个状态），但在SkillsBench和TerminalBench上扩展到151和187个状态。最后，首次警报诊断表明，强大的排名并不意味着部署实用性：WebArena排名良好，但无法支持低误报警报，而$τ^2$-Bench和TerminalBench保留了更多可操作的早期警报。总之，这些结果将PrefixGuard定位为一个实用的监控器合成方案，具有明确的诊断，用于确定前缀警告何时转化为可操作的干预。

🔬 方法详解

问题定义：论文旨在解决LLM Agent在执行复杂、长期的工具使用任务时，缺乏有效的在线故障预警机制的问题。现有方法主要存在两个痛点：一是依赖手工设计的事件模式，这些模式通常很脆弱，难以适应Agent行为的多样性；二是直接使用LLM进行在线判断，计算成本高昂，难以实时部署。

核心思路：PrefixGuard的核心思路是通过离线学习的方式，从Agent的执行轨迹中自动提取事件抽象和风险评分模型，从而实现轻量级的在线故障预警。该方法避免了手工设计事件模式的困难，并降低了在线判断的计算成本。

技术框架：PrefixGuard框架主要包含两个阶段：StepView归纳阶段和监控器训练阶段。在StepView归纳阶段，系统从原始的Agent执行轨迹中学习确定性的类型化步骤适配器，将原始轨迹转换为结构化的事件序列。在监控器训练阶段，系统利用终端结果（成功或失败）作为监督信号，训练一个事件抽象模型和一个前缀风险评分器。该评分器能够根据已观察到的事件序列，预测Agent最终失败的风险。

关键创新：PrefixGuard的关键创新在于其能够从原始的Agent执行轨迹中自动学习事件抽象和风险评分模型。与传统方法相比，该方法无需手工设计事件模式，能够更好地适应Agent行为的多样性。此外，PrefixGuard采用离线学习的方式，降低了在线判断的计算成本，使其能够实时部署。

关键设计：StepView归纳阶段的关键在于如何从原始轨迹中提取有意义的事件表示。论文采用了一种基于类型化的步骤适配器的方法，将原始轨迹中的文本信息转换为结构化的事件表示。监控器训练阶段的关键在于如何设计一个有效的风险评分器。论文采用了一种基于循环神经网络（RNN）的评分器，能够捕捉事件序列中的时序依赖关系。

🖼️ 关键图片

📊 实验亮点

PrefixGuard在WebArena、$τ^2$-Bench、SkillsBench和TerminalBench四个基准测试中取得了显著的性能提升。最强的PrefixGuard监控器分别达到了0.900、0.710、0.533和0.557的AUPRC，平均比原始文本对照组提高了0.137 AUPRC。此外，实验还表明，PrefixGuard提取的确定性有限自动机（DFA）在WebArena和$τ^2$-Bench上保持紧凑，表明其能够有效地学习Agent的行为模式。

🎯 应用场景

PrefixGuard可应用于各种需要LLM Agent执行复杂任务的场景，例如智能客服、自动化运维、机器人控制等。通过在线预警，可以及时发现Agent执行过程中的潜在问题，并采取相应的干预措施，从而提高任务的成功率和效率。该研究有助于提升LLM Agent的可靠性和实用性。

📄 摘要（原文）

Large language model (LLM) agents now execute long, tool-using tasks where final outcome checks can arrive too late for intervention. Online warning requires lightweight prefix monitors over heterogeneous traces, but hand-authored event schemas are brittle and deployment-time LLM judging is costly. We introduce PrefixGuard, a trace-to-monitor framework with an offline StepView induction step followed by supervised monitor training. StepView induces deterministic typed-step adapters from raw trace samples, and the monitor learns an event abstraction and prefix-risk scorer from terminal outcomes. Across WebArena, $τ^2$-Bench, SkillsBench, and TerminalBench, the strongest PrefixGuard monitors reach 0.900/0.710/0.533/0.557 AUPRC. Using the strongest backend within each representation, they improve over raw-text controls by an average of +0.137 AUPRC. LLM judges remain substantially weaker under the same prefix-warning protocol. We also derive an observability ceiling on score-based area under the precision-recall curve (AUPRC) that separates monitor error from failures lacking evidence in the observed prefix. For finite-state audit, post-hoc deterministic finite automaton (DFA) extraction remains compact on WebArena and $τ^2$-Bench (29 and 20 states) but expands to 151 and 187 states on SkillsBench and TerminalBench. Finally, first-alert diagnostics show that strong ranking does not imply deployment utility: WebArena ranks well yet fails to support low-false-alarm alerts, whereas $τ^2$-Bench and TerminalBench retain more actionable early alerts. Together, these results position PrefixGuard as a practical monitor-synthesis recipe with explicit diagnostics for when prefix warnings translate into actionable interventions.

PrefixGuard: From LLM-Agent Traces to Online Failure-Warning Monitors

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理