PrefixGuard: From LLM-Agent Traces to Online Failure-Warning Monitors

📄 arXiv: 2605.06455v1 📥 PDF

作者: Xinmiao Huang, Jinwei Hu, Rajarshi Roy, Changshun Wu, Yi Dong, Xiaowei Huang

分类: cs.AI

发布日期: 2026-05-07

备注: Under Review


💡 一句话要点

PrefixGuard:从LLM-Agent轨迹到在线故障预警监控器

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 在线监控 故障预警 轨迹分析 事件抽象

📋 核心要点

  1. 现有LLM Agent在复杂任务中,最终结果检查滞后,缺乏在线预警机制,手工事件模式脆弱,LLM判断成本高。
  2. PrefixGuard通过离线StepView归纳和有监督监控器训练,从原始轨迹中学习事件抽象和风险评分,实现轻量级在线预警。
  3. 实验表明,PrefixGuard在多个基准测试中显著优于原始文本对照组和LLM判断,AUPRC平均提升+0.137。

📝 摘要(中文)

大型语言模型(LLM)Agent现在执行需要使用工具的长期任务,而最终结果的检查往往滞后,无法及时干预。在线预警需要对异构轨迹进行轻量级的前缀监控,但手工编写的事件模式脆弱且部署时LLM判断成本高昂。我们介绍了PrefixGuard,一个轨迹到监控器的框架,包含离线的StepView归纳步骤和有监督的监控器训练。StepView从原始轨迹样本中归纳出确定性的类型化步骤适配器,监控器从终端结果中学习事件抽象和前缀风险评分器。在WebArena、$τ^2$-Bench、SkillsBench和TerminalBench上,最强的PrefixGuard监控器达到了0.900/0.710/0.533/0.557的AUPRC。在使用每个表示中最强后端的情况下,它们比原始文本对照组平均提高了+0.137 AUPRC。在相同的前缀预警协议下,LLM判断仍然明显较弱。我们还推导出了基于分数的精确率-召回率曲线下面积(AUPRC)的可观测性上限,该上限将监控器误差与观察到的前缀中缺乏证据的故障区分开来。对于有限状态审计,事后确定性有限自动机(DFA)提取在WebArena和$τ^2$-Bench上仍然紧凑(29和20个状态),但在SkillsBench和TerminalBench上扩展到151和187个状态。最后,首次警报诊断表明,强大的排名并不意味着部署实用性:WebArena排名良好,但无法支持低误报警报,而$τ^2$-Bench和TerminalBench保留了更多可操作的早期警报。总之,这些结果将PrefixGuard定位为一个实用的监控器合成方案,具有明确的诊断,用于确定前缀警告何时转化为可操作的干预。

🔬 方法详解

问题定义:论文旨在解决LLM Agent在执行复杂、长期的工具使用任务时,缺乏有效的在线故障预警机制的问题。现有方法主要存在两个痛点:一是依赖手工设计的事件模式,这些模式通常很脆弱,难以适应Agent行为的多样性;二是直接使用LLM进行在线判断,计算成本高昂,难以实时部署。

核心思路:PrefixGuard的核心思路是通过离线学习的方式,从Agent的执行轨迹中自动提取事件抽象和风险评分模型,从而实现轻量级的在线故障预警。该方法避免了手工设计事件模式的困难,并降低了在线判断的计算成本。

技术框架:PrefixGuard框架主要包含两个阶段:StepView归纳阶段和监控器训练阶段。在StepView归纳阶段,系统从原始的Agent执行轨迹中学习确定性的类型化步骤适配器,将原始轨迹转换为结构化的事件序列。在监控器训练阶段,系统利用终端结果(成功或失败)作为监督信号,训练一个事件抽象模型和一个前缀风险评分器。该评分器能够根据已观察到的事件序列,预测Agent最终失败的风险。

关键创新:PrefixGuard的关键创新在于其能够从原始的Agent执行轨迹中自动学习事件抽象和风险评分模型。与传统方法相比,该方法无需手工设计事件模式,能够更好地适应Agent行为的多样性。此外,PrefixGuard采用离线学习的方式,降低了在线判断的计算成本,使其能够实时部署。

关键设计:StepView归纳阶段的关键在于如何从原始轨迹中提取有意义的事件表示。论文采用了一种基于类型化的步骤适配器的方法,将原始轨迹中的文本信息转换为结构化的事件表示。监控器训练阶段的关键在于如何设计一个有效的风险评分器。论文采用了一种基于循环神经网络(RNN)的评分器,能够捕捉事件序列中的时序依赖关系。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PrefixGuard在WebArena、$τ^2$-Bench、SkillsBench和TerminalBench四个基准测试中取得了显著的性能提升。最强的PrefixGuard监控器分别达到了0.900、0.710、0.533和0.557的AUPRC,平均比原始文本对照组提高了0.137 AUPRC。此外,实验还表明,PrefixGuard提取的确定性有限自动机(DFA)在WebArena和$τ^2$-Bench上保持紧凑,表明其能够有效地学习Agent的行为模式。

🎯 应用场景

PrefixGuard可应用于各种需要LLM Agent执行复杂任务的场景,例如智能客服、自动化运维、机器人控制等。通过在线预警,可以及时发现Agent执行过程中的潜在问题,并采取相应的干预措施,从而提高任务的成功率和效率。该研究有助于提升LLM Agent的可靠性和实用性。

📄 摘要(原文)

Large language model (LLM) agents now execute long, tool-using tasks where final outcome checks can arrive too late for intervention. Online warning requires lightweight prefix monitors over heterogeneous traces, but hand-authored event schemas are brittle and deployment-time LLM judging is costly. We introduce PrefixGuard, a trace-to-monitor framework with an offline StepView induction step followed by supervised monitor training. StepView induces deterministic typed-step adapters from raw trace samples, and the monitor learns an event abstraction and prefix-risk scorer from terminal outcomes. Across WebArena, $τ^2$-Bench, SkillsBench, and TerminalBench, the strongest PrefixGuard monitors reach 0.900/0.710/0.533/0.557 AUPRC. Using the strongest backend within each representation, they improve over raw-text controls by an average of +0.137 AUPRC. LLM judges remain substantially weaker under the same prefix-warning protocol. We also derive an observability ceiling on score-based area under the precision-recall curve (AUPRC) that separates monitor error from failures lacking evidence in the observed prefix. For finite-state audit, post-hoc deterministic finite automaton (DFA) extraction remains compact on WebArena and $τ^2$-Bench (29 and 20 states) but expands to 151 and 187 states on SkillsBench and TerminalBench. Finally, first-alert diagnostics show that strong ranking does not imply deployment utility: WebArena ranks well yet fails to support low-false-alarm alerts, whereas $τ^2$-Bench and TerminalBench retain more actionable early alerts. Together, these results position PrefixGuard as a practical monitor-synthesis recipe with explicit diagnostics for when prefix warnings translate into actionable interventions.