Cybernaut: Towards Reliable Web Automation

📄 arXiv: 2508.16688v1 📥 PDF

作者: Ankur Tomar, Hengyue Liang, Indranil Bhattacharya, Natalia Larios, Francesco Carbone

分类: cs.SE, cs.AI

发布日期: 2025-08-21


💡 一句话要点

Cybernaut:面向企业级应用的可靠Web自动化框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Web自动化 大型语言模型 执行一致性 HTML DOM元素识别 标准操作程序 企业级应用 自动化代理

📋 核心要点

  1. 现有Web自动化方案难以应对企业内部复杂、设计不良的Web界面,导致执行一致性差、元素识别不准等问题。
  2. Cybernaut框架通过SOP生成器、高精度DOM元素识别和一致性评估指标,提升Web自动化代理的可靠性。
  3. 在内部基准测试中,Cybernaut相比现有方法显著提升了任务执行成功率,并能准确识别一致的执行模式。

📝 摘要(中文)

本文提出Cybernaut,一个旨在确保企业环境中Web自动化代理高执行一致性的新框架。当前基于LLM的Web自动化在工业界落地面临四大挑战:执行一致性、HTML元素精确识别、类人准确率以及缺乏内部Web应用基准数据。现有方案主要针对设计良好的消费级网站,难以应对复杂内部Web界面。Cybernaut包含:将用户演示转化为可靠自动化指令的标准操作程序(SOP)生成器;针对复杂Web界面的高精度HTML DOM元素识别系统;以及评估执行一致性的量化指标。内部基准测试表明,相比browser_use,Cybernaut使任务执行成功率提升23.2%(从72%到88.68%),并以84.7%的准确率识别一致的执行模式,从而实现可靠的置信度评估和自适应指导。这些结果突显了Cybernaut在企业级Web自动化中的有效性,并为未来的Web自动化发展奠定了基础。

🔬 方法详解

问题定义:论文旨在解决企业级Web自动化中,由于内部Web应用界面复杂、设计不规范,导致现有基于LLM的Web自动化工具执行一致性差、HTML元素识别精度低的问题。现有方法主要针对设计良好的消费级网站,无法有效应对企业内部Web应用的挑战。

核心思路:Cybernaut的核心思路是通过模拟人工操作流程,将用户演示转化为标准操作程序(SOP),并结合高精度的HTML DOM元素识别,从而提高Web自动化代理的可靠性和执行一致性。该方法旨在弥合LLM的理解能力与复杂Web界面之间的差距。

技术框架:Cybernaut框架包含三个主要模块:1) 标准操作程序(SOP)生成器,将用户演示转化为可靠的自动化指令;2) 高精度HTML DOM元素识别系统,专门针对复杂Web界面进行优化;3) 执行一致性评估模块,提供量化指标来评估和监控自动化代理的执行情况。整体流程为:用户演示 -> SOP生成 -> DOM元素识别 -> 任务执行 -> 一致性评估 -> 自适应指导。

关键创新:Cybernaut的关键创新在于其结合了SOP生成、高精度DOM元素识别和一致性评估,形成了一个完整的、面向企业级Web自动化的解决方案。与现有方法相比,Cybernaut更注重解决实际企业应用中Web界面的复杂性和不确定性,并提供了一种量化评估执行一致性的方法。

关键设计:SOP生成器:具体算法未知,但其目标是将用户演示转化为结构化的、可重复执行的指令序列。高精度DOM元素识别系统:具体实现未知,但强调了针对复杂Web界面的优化,可能采用了更鲁棒的特征提取和匹配方法。执行一致性评估模块:定义了一种量化指标来评估自动化代理的执行情况,具体计算方法未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Cybernaut在内部基准测试中表现出色,任务执行成功率从72%提升到88.68%,提升幅度达23.2%。此外,Cybernaut能够以84.7%的准确率识别一致的执行模式,从而实现可靠的置信度评估和自适应指导。这些结果表明Cybernaut在企业级Web自动化中具有显著优势。

🎯 应用场景

Cybernaut可应用于企业内部各种Web应用的自动化,例如财务报销、数据录入、流程审批等。通过提高自动化任务的可靠性和效率,可以显著降低人工成本,提升工作效率。未来,该技术有望扩展到更广泛的领域,例如智能客服、自动化测试等。

📄 摘要(原文)

The emergence of AI-driven web automation through Large Language Models (LLMs) offers unprecedented opportunities for optimizing digital workflows. However, deploying such systems within industry's real-world environments presents four core challenges: (1) ensuring consistent execution, (2) accurately identifying critical HTML elements, (3) meeting human-like accuracy in order to automate operations at scale and (4) the lack of comprehensive benchmarking data on internal web applications. Existing solutions are primarily tailored for well-designed, consumer-facing websites (e.g., Amazon.com, Apple.com) and fall short in addressing the complexity of poorly-designed internal web interfaces. To address these limitations, we present Cybernaut, a novel framework to ensure high execution consistency in web automation agents designed for robust enterprise use. Our contributions are threefold: (1) a Standard Operating Procedure (SOP) generator that converts user demonstrations into reliable automation instructions for linear browsing tasks, (2) a high-precision HTML DOM element recognition system tailored for the challenge of complex web interfaces, and (3) a quantitative metric to assess execution consistency. The empirical evaluation on our internal benchmark demonstrates that using our framework enables a 23.2% improvement (from 72% to 88.68%) in task execution success rate over the browser_use. Cybernaut identifies consistent execution patterns with 84.7% accuracy, enabling reliable confidence assessment and adaptive guidance during task execution in real-world systems. These results highlight Cybernaut's effectiveness in enterprise-scale web automation and lay a foundation for future advancements in web automation.