AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials
作者: Yiheng Xu, Dunjie Lu, Zhennan Shen, Junli Wang, Zekun Wang, Yuchen Mao, Caiming Xiong, Tao Yu
分类: cs.CL
发布日期: 2024-12-12 (更新: 2025-03-03)
备注: ICLR2025 Spotlight https://agenttrek.github.io
💡 一句话要点
AgentTrek:利用Web教程引导回放合成GUI Agent轨迹数据
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: GUI Agent 轨迹合成 Web教程 视觉-语言模型 自动化数据生成
📋 核心要点
- 高质量GUI Agent训练数据稀缺,现有方法依赖昂贵的人工标注,限制了其可扩展性。
- AgentTrek利用公开Web教程,通过自动提取、结构化和执行教程指令,合成Agent轨迹数据。
- 实验表明,使用AgentTrek合成的数据训练的Agent在多个Web浏览基准测试中取得了SOTA性能,且数据生成成本极低。
📝 摘要(中文)
图形用户界面(GUI) Agent可以自动化数字环境中的复杂任务,但高质量训练轨迹数据的稀缺阻碍了其发展。现有方法依赖于昂贵的人工标注,难以大规模应用。我们提出了AgentTrek,一个可扩展的数据合成流程,通过利用公开的Web教程生成Web Agent轨迹。我们的方法分为三个阶段:(1)使用专门的分类模型自动从互联网上收集和过滤类似教程的文本;(2)将这些文本转换为结构化的任务规范,包含逐步指令;(3)使用视觉-语言模型(VLM) Agent在真实环境中执行这些指令,同时使用基于VLM的评估器验证轨迹的正确性。合成的轨迹包含多种模态,包括基于文本的HTML观测和函数调用API动作,以及基于视觉的屏幕截图观测和像素级动作。这种多模态数据,通过思维链推理进行增强,使Agent在文本Web浏览基准测试(例如,WebArena)和视觉Web定位和浏览基准测试(例如,ScreenSpot Web和Multimodal Mind2Web)上都实现了最先进的性能。此外,我们完全自动化的方法显著降低了数据收集成本,在没有人工标注的情况下,每条高质量轨迹的成本仅为0.55美元。我们的工作表明,使用Web教程引导回放是训练高级GUI Agent的一种实用且可扩展的策略,为更强大和自主的数字助手铺平了道路。
🔬 方法详解
问题定义:论文旨在解决GUI Agent训练数据不足的问题,特别是高质量、多模态的轨迹数据。现有方法依赖人工标注,成本高昂且难以扩展,无法满足训练复杂Agent的需求。
核心思路:论文的核心思路是利用互联网上大量的Web教程作为Agent学习的指导。通过将教程转化为结构化的任务规范,并让Agent在真实环境中执行这些规范,从而自动生成训练数据。这种方法避免了人工标注,降低了成本,并提高了数据的可扩展性。
技术框架:AgentTrek包含三个主要阶段:1) 教程挖掘与过滤:使用分类模型从互联网上自动收集并过滤类似教程的文本。2) 任务规范生成:将过滤后的教程文本转换为结构化的任务规范,包含逐步指令。3) Agent执行与评估:使用VLM Agent执行任务规范,并在真实环境中生成轨迹数据。同时,使用基于VLM的评估器验证轨迹的正确性,过滤掉不合格的轨迹。
关键创新:AgentTrek的关键创新在于其完全自动化的数据合成流程,该流程无需人工干预即可生成高质量、多模态的Agent轨迹数据。此外,该方法利用Web教程作为Agent学习的指导,这是一种新颖且有效的策略。
关键设计:在教程挖掘阶段,使用了专门的分类模型来区分教程文本和非教程文本。在任务规范生成阶段,使用了自然语言处理技术将教程文本转换为结构化的任务规范。在Agent执行阶段,使用了VLM Agent来执行任务规范,并生成轨迹数据。评估器也基于VLM,用于判断Agent行为的正确性。具体参数设置和网络结构在论文中有详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
AgentTrek在WebArena、ScreenSpot Web和Multimodal Mind2Web等多个Web浏览基准测试中取得了SOTA性能。例如,在WebArena上,使用AgentTrek合成的数据训练的Agent的性能显著优于现有方法。此外,AgentTrek的数据生成成本极低,每条高质量轨迹的成本仅为0.55美元,远低于人工标注的成本。
🎯 应用场景
AgentTrek具有广泛的应用前景,可用于训练各种GUI Agent,例如自动化测试工具、智能助手和Web爬虫。该方法可以显著降低Agent开发的成本和时间,并提高Agent的性能和可靠性。未来,该技术可用于构建更智能、更自主的数字助手,从而提高人们的工作效率和生活质量。
📄 摘要(原文)
Graphical User Interface (GUI) agents can automate complex tasks across digital environments, but their development is hindered by the scarcity of high-quality trajectory data for training. Existing approaches rely on expensive human annotation, making them unsustainable at scale. We propose AgentTrek, a scalable data synthesis pipeline that generates web agent trajectories by leveraging publicly available tutorials. Our three-stage method: (1) automatically harvests and filters tutorial-like texts from the internet using a specialized classification model, (2) transforms these texts into structured task specifications with step-by-step instructions, and (3) employs a visual-language model (VLM) agent to execute these instructions in real environments, while a VLM-based evaluator verifies trajectory correctness. The synthesized trajectories encompass multiple modalities, including text-based HTML observations with function-calling API actions, and vision-based screenshot observations with pixel-level actions. This multimodal data, enriched with chain-of-thought reasoning, enables agents to achieve state-of-the-art performance on both textual web browsing benchmarks (e.g., WebArena) and visual web grounding and browsing benchmarks (e.g., ScreenSpot Web and Multimodal Mind2Web). Furthermore, our fully automated approach significantly reduces data collection costs, achieving a cost of just $0.55 per high-quality trajectory without human annotators. Our work demonstrates that guided replay using web tutorials is a practical and scalable strategy for training advanced GUI agents, paving the way for more capable and autonomous digital assistants.