MacroBench: A Novel Testbed for Web Automation Scripts via Large Language Models

📄 arXiv: 2510.04363v2 📥 PDF

作者: Hyunjun Kim, Sejong Kim

分类: cs.SE, cs.AI, cs.CL

发布日期: 2025-10-05 (更新: 2025-10-08)

备注: NeurIPS 2025 Workshop on Lock-LLM

🔗 代码/项目: GITHUB


💡 一句话要点

MacroBench:一个基于大语言模型的Web自动化脚本测试平台

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Web自动化 大语言模型 基准测试 Selenium 代码生成

📋 核心要点

  1. 现有Web自动化测试缺乏标准化的评估基准,难以有效衡量和比较不同大语言模型生成自动化脚本的能力。
  2. MacroBench通过构建包含多种交互复杂度和目标定位难度的自托管网站,提供了一个代码优先的测试平台。
  3. 实验结果表明,现有大语言模型在简单Web自动化任务上表现良好,但在复杂任务和生产质量编码方面仍有不足。

📝 摘要(中文)

本文介绍MacroBench,这是一个代码优先的基准测试,旨在评估大语言模型(LLM)是否能够通过读取HTML/DOM并生成Selenium代码,从自然语言目标中合成可重用的浏览器自动化程序(宏)。MacroBench实例化了七个自托管站点,涵盖了681个任务,这些任务在交互复杂性和目标定位难度上各不相同。我们的端到端协议通过静态检查、沙盒执行和结果验证(DOM断言、数据库快照)来验证生成的代码,并包含一个用于抓取、垃圾邮件/滥用以及凭据/隐私提示的安全套件。在2636个模型-任务运行中,我们观察到分层成功:GPT-4o-mini(96.8%),GPT-4o(95.3%),Gemini(89.0%),DeepSeek(83.4%)。模型能够可靠地处理简单任务(91.7%),但在复杂工作流程上失败(0.0%),并且尽管功能完成,但没有一个模型达到生产质量的编码实践。我们在https://github.com/hyunjun1121/MacroBench上发布了完整的基准测试管道、评估框架和实验结果,以实现对Web自动化宏合成的可重复评估。

🔬 方法详解

问题定义:论文旨在解决如何系统性地评估大语言模型(LLM)在Web自动化脚本生成方面的能力。现有方法缺乏一个标准化的、全面的测试平台,难以衡量LLM在处理不同复杂度和难度的Web自动化任务时的性能,也无法有效评估生成的代码质量和安全性。

核心思路:论文的核心思路是构建一个代码优先的基准测试平台MacroBench,该平台包含一系列自托管的Web站点,涵盖各种交互复杂度和目标定位难度。通过提供自然语言目标,并要求LLM生成相应的Selenium自动化脚本,然后通过一系列验证步骤来评估生成的代码的正确性、安全性和质量。

技术框架:MacroBench的整体框架包括以下几个主要模块:1) 自托管Web站点:包含七个站点,提供681个不同的Web自动化任务。2) 代码生成:LLM根据自然语言目标生成Selenium代码。3) 静态检查:对生成的代码进行语法和风格检查。4) 沙盒执行:在隔离环境中执行生成的代码。5) 结果验证:通过DOM断言和数据库快照等方式验证代码执行结果的正确性。6) 安全性测试:评估代码是否存在抓取、垃圾邮件/滥用以及凭据/隐私泄露等安全问题。

关键创新:MacroBench的关键创新在于其代码优先的设计理念和全面的评估流程。与以往侧重于功能性测试的Web自动化评估方法不同,MacroBench更加关注LLM生成的代码的质量、安全性和可维护性。此外,MacroBench还提供了一个可重复的评估框架,方便研究人员进行比较和改进。

关键设计:MacroBench的关键设计包括:1) 多样化的Web站点:涵盖各种交互复杂度和目标定位难度,确保评估的全面性。2) 端到端验证流程:包括静态检查、沙盒执行、结果验证和安全性测试,确保评估的可靠性。3) 安全性测试套件:专门设计用于检测LLM生成的代码是否存在安全风险。4) 评估指标:包括成功率、代码质量和安全性指标,用于全面评估LLM的性能。

📊 实验亮点

实验结果表明,GPT-4o-mini和GPT-4o在MacroBench上分别取得了96.8%和95.3%的成功率,Gemini和DeepSeek的成功率分别为89.0%和83.4%。虽然模型在简单任务上表现良好(91.7%),但在复杂工作流程上完全失败(0.0%),并且生成的代码质量距离生产标准仍有差距。

🎯 应用场景

该研究成果可应用于自动化测试、RPA(机器人流程自动化)和Web数据抓取等领域。通过利用大语言模型自动生成Web自动化脚本,可以显著降低开发成本,提高测试效率,并赋能非技术人员进行Web数据分析。未来,该研究有望推动Web自动化技术的普及和应用。

📄 摘要(原文)

We introduce MacroBench, a code-first benchmark that evaluates whether LLMs can synthesize reusable browser-automation programs (macros) from natural-language goals by reading HTML/DOM and emitting Selenium. MacroBench instantiates seven self-hosted sites covering 681 tasks across interaction complexity and targeting difficulty. Our end-to-end protocol validates generated code via static checks, sandboxed execution, and outcome verification (DOM assertions, database snapshots), and includes a safety suite for scraping, spam/abuse, and credential/privacy prompts. Across 2,636 model-task runs, we observe stratified success: GPT-4o-mini (96.8%), GPT-4o (95.3%), Gemini (89.0%), DeepSeek (83.4%). Models handle simple tasks reliably (91.7%) but fail on complex workflows (0.0%), and none meet production-quality coding practices despite functional completion. We release our complete benchmark pipeline, evaluation framework, and experimental results at https://github.com/hyunjun1121/MacroBench to enable reproducible assessment of macro synthesis for web automation.