Counterfactual Trace Auditing of LLM Agent Skills
作者: Xiaolin Zhou, Jinbo Liu, Li Li, Ryan A. Rossi, Xiyang Hu
分类: cs.AI
发布日期: 2026-05-12
备注: Code and data are available at https://github.com/WillChow66/CTA.git
💡 一句话要点
提出CTA框架,通过反事实轨迹审计评估LLM Agent技能的影响,揭示现有评估方法的局限性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM Agent 技能评估 反事实推理 行为分析 软件工程 轨迹审计 技能影响模式
📋 核心要点
- 现有技能评估方法将技能视为黑盒,仅关注技能附加前后通过率的变化,无法深入了解技能对Agent行为的影响。
- CTA框架通过配对有无技能的Agent轨迹,分割对齐轨迹阶段,并生成SIP注释,从而量化技能对Agent行为的改变。
- 实验表明,即使通过率变化不大,技能也会显著重塑Agent行为,CTA能识别出通过率无法检测到的重复性影响。
📝 摘要(中文)
本文提出了一种名为反事实轨迹审计(CTA)的框架,用于衡量技能如何改变大型语言模型(LLM)Agent的行为。CTA将具有技能的Agent轨迹与在相同任务上没有技能的Agent轨迹配对,将两个轨迹分割成面向目标的阶段,对齐这些阶段,并生成结构化的技能影响模式(SIP)注释。这些注释描述了技能的行为影响,而不仅仅是任务结果。在SWE-Skills-Bench上使用Claude对CTA进行了实例化,涵盖49个软件工程任务。审计结果表明,现有的评估方法存在明显的差距。通过率平均仅提高+0.3个百分点,表明总体效果不大。然而,CTA在相同的配对轨迹中识别出522个SIP实例,表明即使通过率几乎没有变化,这些技能也会显著地重塑Agent的行为。审计还区分了几种通过率无法检测到的重复性影响,包括字面模板复制、脱离任务的工件创建、过度规划和任务恢复。研究发现,高基线任务包含观察到的大部分技能效果,尽管它们的通过率已经饱和,因此无法反映这些效果。其次,基线性能适中的任务显示出最大的可恢复增益,但通常以更高的token成本为代价。第三,可以通过基线桶识别主要的SIP类型:表面锚定在上限任务中最常见,而边缘案例提示在中等和下限任务中最常见。这些规律将非正式的失败模式观察转化为可重复的行为测量。
🔬 方法详解
问题定义:现有的大型语言模型Agent技能评估方法主要依赖于任务通过率的简单比较,无法深入了解技能对Agent行为的具体影响。这种黑盒评估方式忽略了技能可能带来的行为模式变化,即使通过率没有显著提升,技能也可能对Agent的推理过程产生重要影响。因此,需要一种更细粒度的评估方法,能够揭示技能如何改变Agent的行为轨迹。
核心思路:CTA的核心思路是通过反事实推理来评估技能的影响。具体来说,对于每个具有技能的Agent轨迹,CTA都会创建一个在相同任务上没有技能的Agent轨迹作为对照。通过比较这两条轨迹,CTA可以识别出技能所带来的行为差异,并将其量化为结构化的SIP注释。这种反事实比较能够更清晰地揭示技能对Agent行为的因果影响。
技术框架:CTA框架包含以下几个主要阶段: 1. 轨迹配对:为每个具有技能的Agent轨迹找到一个在相同任务上没有技能的Agent轨迹。 2. 轨迹分割:将两条轨迹分割成面向目标的阶段,例如规划、执行等。 3. 轨迹对齐:对齐两条轨迹的阶段,以便进行比较。 4. SIP注释:根据两条轨迹的差异,生成结构化的SIP注释,描述技能的行为影响。
关键创新:CTA最重要的技术创新点在于其反事实的评估方法和结构化的SIP注释。传统的评估方法只关注任务结果,而CTA则关注技能对Agent行为轨迹的影响。SIP注释则提供了一种标准化的方式来描述这些行为影响,使得可以对不同技能的影响进行比较和分析。与现有方法的本质区别在于,CTA不再将技能视为黑盒,而是试图打开黑盒,理解技能如何改变Agent的推理过程。
关键设计:CTA的关键设计包括如何选择合适的反事实轨迹、如何分割和对齐轨迹阶段,以及如何设计SIP注释的结构。例如,可以使用不同的策略来选择反事实轨迹,例如随机选择或选择与具有技能的Agent轨迹最相似的轨迹。轨迹分割可以使用基于规则的方法或基于机器学习的方法。SIP注释可以包含多种信息,例如技能所带来的行为变化类型、变化发生的阶段以及变化的影响程度。
🖼️ 关键图片
📊 实验亮点
在SWE-Skills-Bench上的实验表明,即使通过率仅提高0.3个百分点,CTA也能识别出522个SIP实例,揭示技能对Agent行为的显著影响。实验还发现,高基线任务包含大部分技能效果,而基线性能适中的任务显示出最大的可恢复增益。此外,实验还确定了不同基线桶中主要的SIP类型,例如表面锚定在上限任务中最常见。
🎯 应用场景
CTA框架可应用于各种LLM Agent技能的评估和优化,例如代码生成、文本摘要、对话系统等。通过CTA,开发者可以更深入地了解技能对Agent行为的影响,从而更好地设计和改进技能,提高Agent的性能和可靠性。此外,CTA还可以用于评估不同技能之间的相互作用,以及技能在不同任务上的泛化能力。
📄 摘要(原文)
Large Language Model agents are increasingly augmented with agent skills. Current evaluation methods for skills remain limited. Most deployed benchmarks report only pass rate before and after a skill is attached, treating the skill as a black box change to agent behavior. We introduce Counterfactual Trace Auditing (CTA), a framework for measuring how a skill changes agent behavior. CTA pairs each with skill agent trace with a without skill counterpart on the same task, segments both traces into goal directed phases, aligns the phases, and emits structured Skill Influence Pattern (SIP) annotations. These annotations describe the behavioral effect of a skill rather than only its task outcome. We instantiate CTA on SWE-Skills-Bench with Claude across 49 software engineering tasks. The resulting audit reveals a clear evaluation gap. Pass rate changes by only +0.3 percentage points on average, suggesting little aggregate effect. Yet CTA identifies 522 SIP instances across the same paired traces, showing that the skills substantially reshape agent behavior even when pass rate is nearly unchanged. The audit also separates several recurring effects that pass rate cannot detect, including literal template copying, off task artifact creation, excess planning, and task recovery. Three findings emerge. First, high baseline tasks contain most of the observed skill effects, although their pass rate is already saturated and therefore cannot reflect those effects. Second, tasks with moderate baseline performance show the most recoverable gain, but often at substantially higher token cost. Third, the dominant SIP type can be identified by baseline bucket: surface anchoring is most common on ceiling tasks and edge-case prompting is most common on mid-range and floor tasks. These regularities turn informal failure mode observations into reproducible behavioral measurements.