MacroBench: A Novel Testbed for Web Automation Scripts via Large Language Models

作者: Hyunjun Kim, Sejong Kim

分类: cs.SE, cs.AI, cs.CL

发布日期: 2025-10-05 (更新: 2025-10-08)

备注: NeurIPS 2025 Workshop on Lock-LLM

🔗 代码/项目: GITHUB

💡 一句话要点

MacroBench：一个基于大语言模型的Web自动化脚本测试平台

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Web自动化 大语言模型 基准测试 Selenium 代码生成

📋 核心要点

现有Web自动化测试缺乏标准化的评估基准，难以有效衡量和比较不同大语言模型生成自动化脚本的能力。
MacroBench通过构建包含多种交互复杂度和目标定位难度的自托管网站，提供了一个代码优先的测试平台。
实验结果表明，现有大语言模型在简单Web自动化任务上表现良好，但在复杂任务和生产质量编码方面仍有不足。

📝 摘要（中文）

本文介绍MacroBench，这是一个代码优先的基准测试，旨在评估大语言模型（LLM）是否能够通过读取HTML/DOM并生成Selenium代码，从自然语言目标中合成可重用的浏览器自动化程序（宏）。MacroBench实例化了七个自托管站点，涵盖了681个任务，这些任务在交互复杂性和目标定位难度上各不相同。我们的端到端协议通过静态检查、沙盒执行和结果验证（DOM断言、数据库快照）来验证生成的代码，并包含一个用于抓取、垃圾邮件/滥用以及凭据/隐私提示的安全套件。在2636个模型-任务运行中，我们观察到分层成功：GPT-4o-mini（96.8%），GPT-4o（95.3%），Gemini（89.0%），DeepSeek（83.4%）。模型能够可靠地处理简单任务（91.7%），但在复杂工作流程上失败（0.0%），并且尽管功能完成，但没有一个模型达到生产质量的编码实践。我们在https://github.com/hyunjun1121/MacroBench上发布了完整的基准测试管道、评估框架和实验结果，以实现对Web自动化宏合成的可重复评估。

🔬 方法详解

问题定义：论文旨在解决如何系统性地评估大语言模型（LLM）在Web自动化脚本生成方面的能力。现有方法缺乏一个标准化的、全面的测试平台，难以衡量LLM在处理不同复杂度和难度的Web自动化任务时的性能，也无法有效评估生成的代码质量和安全性。

核心思路：论文的核心思路是构建一个代码优先的基准测试平台MacroBench，该平台包含一系列自托管的Web站点，涵盖各种交互复杂度和目标定位难度。通过提供自然语言目标，并要求LLM生成相应的Selenium自动化脚本，然后通过一系列验证步骤来评估生成的代码的正确性、安全性和质量。

技术框架：MacroBench的整体框架包括以下几个主要模块：1) 自托管Web站点：包含七个站点，提供681个不同的Web自动化任务。2) 代码生成：LLM根据自然语言目标生成Selenium代码。3) 静态检查：对生成的代码进行语法和风格检查。4) 沙盒执行：在隔离环境中执行生成的代码。5) 结果验证：通过DOM断言和数据库快照等方式验证代码执行结果的正确性。6) 安全性测试：评估代码是否存在抓取、垃圾邮件/滥用以及凭据/隐私泄露等安全问题。

关键创新：MacroBench的关键创新在于其代码优先的设计理念和全面的评估流程。与以往侧重于功能性测试的Web自动化评估方法不同，MacroBench更加关注LLM生成的代码的质量、安全性和可维护性。此外，MacroBench还提供了一个可重复的评估框架，方便研究人员进行比较和改进。

关键设计：MacroBench的关键设计包括：1) 多样化的Web站点：涵盖各种交互复杂度和目标定位难度，确保评估的全面性。2) 端到端验证流程：包括静态检查、沙盒执行、结果验证和安全性测试，确保评估的可靠性。3) 安全性测试套件：专门设计用于检测LLM生成的代码是否存在安全风险。4) 评估指标：包括成功率、代码质量和安全性指标，用于全面评估LLM的性能。

📊 实验亮点

实验结果表明，GPT-4o-mini和GPT-4o在MacroBench上分别取得了96.8%和95.3%的成功率，Gemini和DeepSeek的成功率分别为89.0%和83.4%。虽然模型在简单任务上表现良好（91.7%），但在复杂工作流程上完全失败（0.0%），并且生成的代码质量距离生产标准仍有差距。

🎯 应用场景

该研究成果可应用于自动化测试、RPA（机器人流程自动化）和Web数据抓取等领域。通过利用大语言模型自动生成Web自动化脚本，可以显著降低开发成本，提高测试效率，并赋能非技术人员进行Web数据分析。未来，该研究有望推动Web自动化技术的普及和应用。

📄 摘要（原文）

We introduce MacroBench, a code-first benchmark that evaluates whether LLMs can synthesize reusable browser-automation programs (macros) from natural-language goals by reading HTML/DOM and emitting Selenium. MacroBench instantiates seven self-hosted sites covering 681 tasks across interaction complexity and targeting difficulty. Our end-to-end protocol validates generated code via static checks, sandboxed execution, and outcome verification (DOM assertions, database snapshots), and includes a safety suite for scraping, spam/abuse, and credential/privacy prompts. Across 2,636 model-task runs, we observe stratified success: GPT-4o-mini (96.8%), GPT-4o (95.3%), Gemini (89.0%), DeepSeek (83.4%). Models handle simple tasks reliably (91.7%) but fail on complex workflows (0.0%), and none meet production-quality coding practices despite functional completion. We release our complete benchmark pipeline, evaluation framework, and experimental results at https://github.com/hyunjun1121/MacroBench to enable reproducible assessment of macro synthesis for web automation.

MacroBench: A Novel Testbed for Web Automation Scripts via Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理