Web Verbs: Typed Abstractions for Reliable Task Composition on the Agentic Web

📄 arXiv: 2602.17245v1 📥 PDF

作者: Linxi Jiang, Rui Xi, Zhijie Liu, Shuo Chen, Zhiqiang Lin, Suman Nath

分类: cs.AI

发布日期: 2026-02-19


💡 一句话要点

提出Web Verbs,为Agentic Web构建可靠任务组合的类型化抽象。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Agentic Web Web代理 大型语言模型 任务组合 类型化抽象

📋 核心要点

  1. 现有Web代理依赖低级操作(如点击和击键),导致脆弱、低效和难以验证的问题。
  2. Web Verbs通过类型化、语义化的函数抽象Web动作,提供稳定、可组合的单元,供代理发现和合成。
  3. 概念验证实验表明,Web Verbs能够实现比现有代理更简洁、更鲁棒的任务执行。

📝 摘要(中文)

Web正在从人类浏览的媒介演变为软件代理代表用户行动的环境。大型语言模型(LLM)的进步使自然语言成为面向目标任务的实用接口,但当前大多数Web代理都在点击和击键等低级原语上运行。这些操作是脆弱的、低效的且难以验证的。为了补充诸如NLWeb的面向内容的语义层检索工作,我们认为Agentic Web也需要一个用于Web动作的语义层。我们提出了 extbf{Web Verbs},这是一组Web规模的、类型化的、语义文档化的函数,通过统一的接口公开站点功能,无论通过API还是强大的客户端工作流实现。这些动词作为稳定且可组合的单元,代理可以发现、选择和合成为简洁的程序。这种抽象统一了基于API和基于浏览器的范例,使LLM能够合成具有显式控制和数据流的可靠且可审计的工作流。动词可以携带前提条件、后置条件、策略标签和日志记录支持,通过提供稳定的接口来提高 extbf{可靠性},通过将数十个步骤减少为几个函数调用来提高 extbf{效率},并通过类型化契约和可检查的跟踪来提高 extbf{可验证性}。我们展示了我们的愿景、概念验证实现和代表性案例研究,与现有代理相比,这些案例研究展示了简洁而强大的执行。最后,我们概述了标准化的路线图,以使动词能够在Web规模上部署和信任。

🔬 方法详解

问题定义:现有Web代理主要依赖于低级别的操作,例如点击和键盘输入。这种方式非常脆弱,容易受到网页结构变化的影响,并且效率低下,需要大量的步骤才能完成一个简单的任务。此外,由于缺乏明确的语义信息,这些操作难以验证和调试。因此,需要一种更高级别、更可靠的Web动作抽象。

核心思路:论文的核心思路是引入“Web Verbs”的概念,将Web站点的功能抽象成一组类型化的、语义文档化的函数。这些函数通过统一的接口暴露站点能力,无论是通过API还是客户端工作流实现。通过这种抽象,代理可以像调用函数一样执行Web动作,从而提高可靠性、效率和可验证性。

技术框架:Web Verbs框架包含以下几个主要组成部分:1) Web Verbs定义:定义了一组Web动作的类型化接口,包括输入参数、输出类型、前提条件和后置条件等。2) Web Verbs实现:提供了Web Verbs的具体实现,可以通过API或者客户端工作流来实现。3) 代理执行引擎:负责发现、选择和合成Web Verbs,并执行相应的Web动作。4) 策略和日志:支持策略标签和日志记录,用于提高安全性和可审计性。

关键创新:最重要的技术创新点在于提出了Web Verbs的概念,将Web动作抽象成类型化的函数。这种抽象统一了API和浏览器两种范式,使得代理可以更加灵活和可靠地执行Web任务。与现有方法相比,Web Verbs提供了更高级别的语义信息,使得代理可以更好地理解Web站点的功能,并进行更智能的任务规划。

关键设计:Web Verbs的关键设计包括:1) 类型化接口:每个Web Verb都定义了明确的输入参数和输出类型,用于提高可靠性和可验证性。2) 语义文档:每个Web Verb都附带详细的语义文档,用于帮助代理理解其功能和使用方法。3) 前提条件和后置条件:Web Verbs可以定义前提条件和后置条件,用于确保Web动作的正确执行。4) 策略标签:Web Verbs可以携带策略标签,用于控制Web动作的执行权限。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

概念验证实验表明,使用Web Verbs的代理能够以更少的步骤完成任务,并且对网页结构变化的鲁棒性更高。与传统的基于点击和击键的代理相比,Web Verbs能够显著提高任务执行的成功率和效率。具体性能数据未知。

🎯 应用场景

Web Verbs可应用于自动化Web任务、智能助手、Web服务组合等领域。它能够提升Web代理的可靠性、效率和可验证性,降低开发和维护成本。未来,Web Verbs有望成为Agentic Web的基础设施,促进Web智能化的发展。

📄 摘要(原文)

The Web is evolving from a medium that humans browse to an environment where software agents act on behalf of users. Advances in large language models (LLMs) make natural language a practical interface for goal-directed tasks, yet most current web agents operate on low-level primitives such as clicks and keystrokes. These operations are brittle, inefficient, and difficult to verify. Complementing content-oriented efforts such as NLWeb's semantic layer for retrieval, we argue that the agentic web also requires a semantic layer for web actions. We propose \textbf{Web Verbs}, a web-scale set of typed, semantically documented functions that expose site capabilities through a uniform interface, whether implemented through APIs or robust client-side workflows. These verbs serve as stable and composable units that agents can discover, select, and synthesize into concise programs. This abstraction unifies API-based and browser-based paradigms, enabling LLMs to synthesize reliable and auditable workflows with explicit control and data flow. Verbs can carry preconditions, postconditions, policy tags, and logging support, which improves \textbf{reliability} by providing stable interfaces, \textbf{efficiency} by reducing dozens of steps into a few function calls, and \textbf{verifiability} through typed contracts and checkable traces. We present our vision, a proof-of-concept implementation, and representative case studies that demonstrate concise and robust execution compared to existing agents. Finally, we outline a roadmap for standardization to make verbs deployable and trustworthy at web scale.