ScribeAgent: Towards Specialized Web Agents Using Production-Scale Workflow Data

作者: Junhong Shen, Atishay Jain, Zedian Xiao, Ishan Amlekar, Mouad Hadji, Aaron Podolny, Ameet Talwalkar

分类: cs.CL, cs.AI

发布日期: 2024-11-22 (更新: 2024-12-05)

💡 一句话要点

ScribeAgent：利用生产级工作流数据微调LLM，提升Web Agent在专业领域的性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Web Agent 大型语言模型 微调 生产级数据 工作流自动化

📋 核心要点

现有Web Agent依赖通用LLM，缺乏对HTML等专业Web环境的理解，且长程规划能力不足。
ScribeAgent利用生产级工作流数据微调开源LLM，使其更好地适应特定Web任务。
实验表明，ScribeAgent在Mind2Web和WebArena等基准测试中显著优于基于Prompt的Agent。

📝 摘要（中文）

大型语言模型（LLM）Agent在处理日益复杂的Web任务方面取得了快速进展。目前大多数Agent依赖于GPT-4等通用、专有模型，并侧重于设计更好的提示来提升规划能力。然而，通用LLM并非专门针对理解HTML等专业Web环境进行训练，并且在长程规划方面常常表现不佳。本文探索了一种替代方法，即利用从超过250个领域收集的、对应于60亿tokens的生产级工作流数据，对开源LLM进行微调。这种简单而有效的方法在现有基准测试中显示出显著的优势——ScribeAgent在Mind2Web上实现了最先进的直接生成性能，并且在WebArena上，任务成功率比之前最好的纯文本Web Agent提高了7.3%。此外，本文还对各种微调设计选择进行了详细的消融研究，并提供了关于LLM选择、训练方法、上下文窗口优化以及数据集大小影响的见解。

🔬 方法详解

问题定义：现有Web Agent主要依赖通用LLM，例如GPT-4，通过设计复杂的Prompt来完成Web任务。这些通用LLM虽然强大，但并非专门为理解Web环境（如HTML结构、JavaScript行为等）而设计，导致在处理专业领域的Web任务时表现不佳，尤其是在需要长程规划的任务中，容易出现错误和效率低下。现有方法缺乏对特定领域Web数据的有效利用，导致模型泛化能力受限。

核心思路：ScribeAgent的核心思路是利用大规模的生产级工作流数据，对开源LLM进行微调，使其能够更好地理解和处理特定领域的Web任务。通过在大量真实Web交互数据上进行训练，模型可以学习到Web环境的内在规律和操作模式，从而提高其在实际应用中的性能。这种方法避免了对通用LLM的过度依赖，并能够针对特定领域进行优化。

技术框架：ScribeAgent的技术框架主要包括以下几个阶段：1) 数据收集：从超过250个领域收集生产级工作流数据，总计60亿tokens。2) 模型选择：选择合适的开源LLM作为基础模型。3) 微调训练：使用收集到的数据对LLM进行微调，优化模型参数。4) 评估测试：在Mind2Web和WebArena等基准测试中评估ScribeAgent的性能。整个流程旨在构建一个能够高效、准确地完成特定Web任务的Agent。

关键创新：ScribeAgent的关键创新在于利用生产级工作流数据对开源LLM进行微调，从而使其能够更好地适应特定领域的Web任务。与传统的基于Prompt的方法相比，ScribeAgent能够更有效地利用数据，学习到Web环境的内在规律，从而提高性能。此外，ScribeAgent还通过详细的消融研究，探索了LLM选择、训练方法、上下文窗口优化以及数据集大小等因素对模型性能的影响。

关键设计：在微调训练中，论文探索了不同的训练方法和参数设置，例如学习率、batch size、训练epochs等。此外，论文还研究了上下文窗口大小对模型性能的影响，并尝试了不同的上下文窗口优化策略。在模型选择方面，论文比较了不同开源LLM的性能，并选择了最适合特定任务的模型。损失函数方面，使用了标准的交叉熵损失函数，并根据具体任务进行了调整。

🖼️ 关键图片

📊 实验亮点

ScribeAgent在Mind2Web上实现了最先进的直接生成性能，并在WebArena上，任务成功率比之前最好的纯文本Web Agent提高了7.3%。这些结果表明，利用生产级工作流数据微调开源LLM是一种有效的方法，可以显著提高Web Agent在专业领域的性能。消融实验也揭示了LLM选择、训练方法和数据集大小等因素对模型性能的重要影响。

🎯 应用场景

ScribeAgent具有广泛的应用前景，例如自动化客户服务、智能数据录入、网页内容提取、在线购物助手等。通过针对特定领域进行微调，ScribeAgent可以显著提高Web任务的自动化程度和效率，降低人工成本，并为用户提供更智能、便捷的Web体验。未来，ScribeAgent有望成为企业数字化转型的重要工具。

📄 摘要（原文）

Large Language Model (LLM) agents are rapidly improving to handle increasingly complex web-based tasks. Most of these agents rely on general-purpose, proprietary models like GPT-4 and focus on designing better prompts to improve their planning abilities. However, general-purpose LLMs are not specifically trained to understand specialized web contexts such as HTML, and they often struggle with long-horizon planning. We explore an alternative approach that fine-tunes open-source LLMs using production-scale workflow data collected from over 250 domains corresponding to 6 billion tokens. This simple yet effective approach shows substantial gains over prompting-based agents on existing benchmarks -- ScribeAgent achieves state-of-the-art direct generation performance on Mind2Web and improves the task success rate by 7.3% over the previous best text-only web agents on WebArena. We further perform detailed ablation studies on various fine-tuning design choices and provide insights into LLM selection, training recipes, context window optimization, and effect of dataset sizes.

ScribeAgent: Towards Specialized Web Agents Using Production-Scale Workflow Data

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理