Structured Distillation of Web Agent Capabilities Enables Generalization
作者: Xing Han Lù, Siva Reddy
分类: cs.LG
发布日期: 2026-04-09
💡 一句话要点
提出Agent-as-Annotators框架,通过结构化蒸馏提升Web Agent在复杂环境中的泛化能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: Web Agent 知识蒸馏 结构化学习 LLM 自动化标注
📋 核心要点
- 现有Web Agent依赖第三方API且成本高昂,难以本地部署,限制了其应用。
- Agent-as-Annotators框架通过模仿人类标注流程,结构化生成Web Agent训练轨迹,降低了对人工标注的依赖。
- 实验表明,该方法显著提升了Web Agent在WebArena等基准测试上的性能,并具备良好的泛化能力。
📝 摘要(中文)
本文提出Agent-as-Annotators框架,借鉴人类标注的角色,通过模块化的LLM组件结构化地生成Web Agent的合成轨迹。该框架将任务设计者、标注者和监督者替换为LLM组件。使用Gemini 3 Pro作为教师模型,在六个Web环境中生成3000条轨迹,并使用纯监督学习在2322条通过质量过滤的轨迹上微调一个90亿参数的学生模型。结果表明,该模型在WebArena上达到41.5%的性能,超过了Claude 3.5 Sonnet (36.0%)和GPT-4o (31.5%)等闭源模型,并且几乎是之前最佳开源模型(Go-Browse, 21.7%)的两倍。该模型的能力可以迁移到未见过的环境中,在WorkArena L1上获得了18.2个百分点的提升,并在其他三个基准测试中取得了持续的改进。消融实验证实了每个pipeline组件都有显著贡献,包括Judge过滤、评估提示和推理轨迹。这些结果表明,来自单个前沿教师模型的结构化轨迹合成足以产生具有竞争力的、可本地部署的Web Agent。
🔬 方法详解
问题定义:现有Web Agent模型,尤其是依赖大型语言模型(LLM)的Agent,在复杂Web环境中的部署面临成本高昂和依赖第三方API的问题。这限制了它们在实际应用中的可行性,尤其是在需要本地部署的场景下。现有方法难以在保证性能的同时,降低模型规模和对外部资源的依赖。
核心思路:本文的核心思路是借鉴人类标注流程,将Web Agent的训练过程视为一个结构化的标注任务。通过模仿人类标注员的角色,利用LLM生成高质量的合成训练数据,然后使用蒸馏技术将大型教师模型的知识迁移到小型学生模型。这种方法旨在降低模型复杂度和部署成本,同时保持甚至提升性能。
技术框架:Agent-as-Annotators框架包含以下主要模块:1) Task Designer:负责生成Web Agent需要完成的任务。2) Annotator:根据任务,在Web环境中执行操作并生成轨迹。3) Judge:评估轨迹的质量,过滤掉不合格的轨迹。4) Student Model Training:使用高质量的轨迹训练小型学生模型。整个流程类似于人类标注任务,其中Task Designer相当于任务发布者,Annotator相当于标注员,Judge相当于质量控制员,最终训练得到可用的模型。
关键创新:该方法最重要的创新点在于将Web Agent的训练过程结构化为类似于人类标注的流程。通过模块化的LLM组件,自动生成高质量的训练数据,避免了对大量人工标注数据的依赖。此外,使用Judge模块进行轨迹质量过滤,保证了训练数据的质量。这种结构化的方法使得知识蒸馏更加有效,从而能够训练出性能优异的小型Web Agent。
关键设计:在实验中,使用Gemini 3 Pro作为教师模型生成轨迹,并使用一个90亿参数的模型作为学生模型。使用纯监督学习方法训练学生模型。Judge模块使用LLM对轨迹进行评分,并设定阈值进行过滤。此外,在训练过程中,还使用了评估提示和推理轨迹等技术来提升学生模型的性能。具体来说,评估提示可以帮助学生模型更好地理解任务目标,而推理轨迹则可以提供更详细的上下文信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用Agent-as-Annotators框架训练的Web Agent在WebArena基准测试中取得了41.5%的性能,超过了闭源模型Claude 3.5 Sonnet (36.0%)和GPT-4o (31.5%),并且几乎是之前最佳开源模型Go-Browse (21.7%)的两倍。此外,该模型在未见过的WorkArena L1环境中获得了18.2个百分点的提升,证明了其良好的泛化能力。
🎯 应用场景
该研究成果可应用于各种需要自动化Web交互的场景,例如:智能客服、自动化测试、数据抓取、信息检索等。通过降低Web Agent的部署成本和对外部API的依赖,可以促进其在企业内部和个人用户的普及。未来,该技术有望赋能更广泛的自动化应用,提升工作效率和用户体验。
📄 摘要(原文)
Frontier LLMs can navigate complex websites, but their cost and reliance on third-party APIs make local deployment impractical. We introduce Agent-as-Annotators, a framework that structures synthetic trajectory generation for web agents by analogy to human annotation roles, replacing the Task Designer, Annotator, and Supervisor with modular LLM components. Using Gemini 3 Pro as teacher, we generate 3,000 trajectories across six web environments and fine-tune a 9B-parameter student with pure supervised learning on the 2,322 that pass quality filtering. The resulting model achieves 41.5% on WebArena, surpassing closed-source models such as Claude 3.5 Sonnet (36.0%) and GPT-4o (31.5%) under the same evaluation protocol, and nearly doubling the previous best open-weight result (Go-Browse, 21.7%). Capabilities transfer to unseen environments, with an 18.2 percentage point gain on WorkArena L1 (an enterprise platform never seen during training) and consistent improvements across three additional benchmarks. Ablations confirm that each pipeline component contributes meaningfully, with Judge filtering, evaluation hints, and reasoning traces each accounting for measurable gains. These results demonstrate that structured trajectory synthesis from a single frontier teacher is sufficient to produce competitive, locally deployable web agents. Project page: https://agent-as-annotators.github.io