ScribeAgent: Towards Specialized Web Agents Using Production-Scale Workflow Data
作者: Junhong Shen, Atishay Jain, Zedian Xiao, Ishan Amlekar, Mouad Hadji, Aaron Podolny, Ameet Talwalkar
分类: cs.CL, cs.AI
发布日期: 2024-11-22 (更新: 2024-12-05)
💡 一句话要点
ScribeAgent:利用生产级工作流数据微调LLM,提升Web Agent在专业领域的性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Web Agent 大型语言模型 微调 生产级数据 工作流自动化
📋 核心要点
- 现有Web Agent依赖通用LLM,缺乏对HTML等专业Web环境的理解,且长程规划能力不足。
- ScribeAgent利用生产级工作流数据微调开源LLM,使其更好地适应特定Web任务。
- 实验表明,ScribeAgent在Mind2Web和WebArena等基准测试中显著优于基于Prompt的Agent。
📝 摘要(中文)
大型语言模型(LLM)Agent在处理日益复杂的Web任务方面取得了快速进展。目前大多数Agent依赖于GPT-4等通用、专有模型,并侧重于设计更好的提示来提升规划能力。然而,通用LLM并非专门针对理解HTML等专业Web环境进行训练,并且在长程规划方面常常表现不佳。本文探索了一种替代方法,即利用从超过250个领域收集的、对应于60亿tokens的生产级工作流数据,对开源LLM进行微调。这种简单而有效的方法在现有基准测试中显示出显著的优势——ScribeAgent在Mind2Web上实现了最先进的直接生成性能,并且在WebArena上,任务成功率比之前最好的纯文本Web Agent提高了7.3%。此外,本文还对各种微调设计选择进行了详细的消融研究,并提供了关于LLM选择、训练方法、上下文窗口优化以及数据集大小影响的见解。
🔬 方法详解
问题定义:现有Web Agent主要依赖通用LLM,例如GPT-4,通过设计复杂的Prompt来完成Web任务。这些通用LLM虽然强大,但并非专门为理解Web环境(如HTML结构、JavaScript行为等)而设计,导致在处理专业领域的Web任务时表现不佳,尤其是在需要长程规划的任务中,容易出现错误和效率低下。现有方法缺乏对特定领域Web数据的有效利用,导致模型泛化能力受限。
核心思路:ScribeAgent的核心思路是利用大规模的生产级工作流数据,对开源LLM进行微调,使其能够更好地理解和处理特定领域的Web任务。通过在大量真实Web交互数据上进行训练,模型可以学习到Web环境的内在规律和操作模式,从而提高其在实际应用中的性能。这种方法避免了对通用LLM的过度依赖,并能够针对特定领域进行优化。
技术框架:ScribeAgent的技术框架主要包括以下几个阶段:1) 数据收集:从超过250个领域收集生产级工作流数据,总计60亿tokens。2) 模型选择:选择合适的开源LLM作为基础模型。3) 微调训练:使用收集到的数据对LLM进行微调,优化模型参数。4) 评估测试:在Mind2Web和WebArena等基准测试中评估ScribeAgent的性能。整个流程旨在构建一个能够高效、准确地完成特定Web任务的Agent。
关键创新:ScribeAgent的关键创新在于利用生产级工作流数据对开源LLM进行微调,从而使其能够更好地适应特定领域的Web任务。与传统的基于Prompt的方法相比,ScribeAgent能够更有效地利用数据,学习到Web环境的内在规律,从而提高性能。此外,ScribeAgent还通过详细的消融研究,探索了LLM选择、训练方法、上下文窗口优化以及数据集大小等因素对模型性能的影响。
关键设计:在微调训练中,论文探索了不同的训练方法和参数设置,例如学习率、batch size、训练epochs等。此外,论文还研究了上下文窗口大小对模型性能的影响,并尝试了不同的上下文窗口优化策略。在模型选择方面,论文比较了不同开源LLM的性能,并选择了最适合特定任务的模型。损失函数方面,使用了标准的交叉熵损失函数,并根据具体任务进行了调整。
🖼️ 关键图片
📊 实验亮点
ScribeAgent在Mind2Web上实现了最先进的直接生成性能,并在WebArena上,任务成功率比之前最好的纯文本Web Agent提高了7.3%。这些结果表明,利用生产级工作流数据微调开源LLM是一种有效的方法,可以显著提高Web Agent在专业领域的性能。消融实验也揭示了LLM选择、训练方法和数据集大小等因素对模型性能的重要影响。
🎯 应用场景
ScribeAgent具有广泛的应用前景,例如自动化客户服务、智能数据录入、网页内容提取、在线购物助手等。通过针对特定领域进行微调,ScribeAgent可以显著提高Web任务的自动化程度和效率,降低人工成本,并为用户提供更智能、便捷的Web体验。未来,ScribeAgent有望成为企业数字化转型的重要工具。
📄 摘要(原文)
Large Language Model (LLM) agents are rapidly improving to handle increasingly complex web-based tasks. Most of these agents rely on general-purpose, proprietary models like GPT-4 and focus on designing better prompts to improve their planning abilities. However, general-purpose LLMs are not specifically trained to understand specialized web contexts such as HTML, and they often struggle with long-horizon planning. We explore an alternative approach that fine-tunes open-source LLMs using production-scale workflow data collected from over 250 domains corresponding to 6 billion tokens. This simple yet effective approach shows substantial gains over prompting-based agents on existing benchmarks -- ScribeAgent achieves state-of-the-art direct generation performance on Mind2Web and improves the task success rate by 7.3% over the previous best text-only web agents on WebArena. We further perform detailed ablation studies on various fine-tuning design choices and provide insights into LLM selection, training recipes, context window optimization, and effect of dataset sizes.