Web Verbs: Typed Abstractions for Reliable Task Composition on the Agentic Web

作者: Linxi Jiang, Rui Xi, Zhijie Liu, Shuo Chen, Zhiqiang Lin, Suman Nath

分类: cs.AI

发布日期: 2026-02-19

💡 一句话要点

提出Web Verbs，为Agentic Web构建可靠任务组合的类型化抽象。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Agentic Web Web代理 大型语言模型 任务组合 类型化抽象

📋 核心要点

现有Web代理依赖低级操作（如点击和击键），导致脆弱、低效和难以验证的问题。
Web Verbs通过类型化、语义化的函数抽象Web动作，提供稳定、可组合的单元，供代理发现和合成。
概念验证实验表明，Web Verbs能够实现比现有代理更简洁、更鲁棒的任务执行。

📝 摘要（中文）

Web正在从人类浏览的媒介演变为软件代理代表用户行动的环境。大型语言模型（LLM）的进步使自然语言成为面向目标任务的实用接口，但当前大多数Web代理都在点击和击键等低级原语上运行。这些操作是脆弱的、低效的且难以验证的。为了补充诸如NLWeb的面向内容的语义层检索工作，我们认为Agentic Web也需要一个用于Web动作的语义层。我们提出了 extbf{Web Verbs}，这是一组Web规模的、类型化的、语义文档化的函数，通过统一的接口公开站点功能，无论通过API还是强大的客户端工作流实现。这些动词作为稳定且可组合的单元，代理可以发现、选择和合成为简洁的程序。这种抽象统一了基于API和基于浏览器的范例，使LLM能够合成具有显式控制和数据流的可靠且可审计的工作流。动词可以携带前提条件、后置条件、策略标签和日志记录支持，通过提供稳定的接口来提高 extbf{可靠性}，通过将数十个步骤减少为几个函数调用来提高 extbf{效率}，并通过类型化契约和可检查的跟踪来提高 extbf{可验证性}。我们展示了我们的愿景、概念验证实现和代表性案例研究，与现有代理相比，这些案例研究展示了简洁而强大的执行。最后，我们概述了标准化的路线图，以使动词能够在Web规模上部署和信任。

🔬 方法详解

问题定义：现有Web代理主要依赖于低级别的操作，例如点击和键盘输入。这种方式非常脆弱，容易受到网页结构变化的影响，并且效率低下，需要大量的步骤才能完成一个简单的任务。此外，由于缺乏明确的语义信息，这些操作难以验证和调试。因此，需要一种更高级别、更可靠的Web动作抽象。

核心思路：论文的核心思路是引入“Web Verbs”的概念，将Web站点的功能抽象成一组类型化的、语义文档化的函数。这些函数通过统一的接口暴露站点能力，无论是通过API还是客户端工作流实现。通过这种抽象，代理可以像调用函数一样执行Web动作，从而提高可靠性、效率和可验证性。

技术框架：Web Verbs框架包含以下几个主要组成部分：1) Web Verbs定义：定义了一组Web动作的类型化接口，包括输入参数、输出类型、前提条件和后置条件等。2) Web Verbs实现：提供了Web Verbs的具体实现，可以通过API或者客户端工作流来实现。3) 代理执行引擎：负责发现、选择和合成Web Verbs，并执行相应的Web动作。4) 策略和日志：支持策略标签和日志记录，用于提高安全性和可审计性。

关键创新：最重要的技术创新点在于提出了Web Verbs的概念，将Web动作抽象成类型化的函数。这种抽象统一了API和浏览器两种范式，使得代理可以更加灵活和可靠地执行Web任务。与现有方法相比，Web Verbs提供了更高级别的语义信息，使得代理可以更好地理解Web站点的功能，并进行更智能的任务规划。

关键设计：Web Verbs的关键设计包括：1) 类型化接口：每个Web Verb都定义了明确的输入参数和输出类型，用于提高可靠性和可验证性。2) 语义文档：每个Web Verb都附带详细的语义文档，用于帮助代理理解其功能和使用方法。3) 前提条件和后置条件：Web Verbs可以定义前提条件和后置条件，用于确保Web动作的正确执行。4) 策略标签：Web Verbs可以携带策略标签，用于控制Web动作的执行权限。

🖼️ 关键图片

📊 实验亮点

概念验证实验表明，使用Web Verbs的代理能够以更少的步骤完成任务，并且对网页结构变化的鲁棒性更高。与传统的基于点击和击键的代理相比，Web Verbs能够显著提高任务执行的成功率和效率。具体性能数据未知。

🎯 应用场景

Web Verbs可应用于自动化Web任务、智能助手、Web服务组合等领域。它能够提升Web代理的可靠性、效率和可验证性，降低开发和维护成本。未来，Web Verbs有望成为Agentic Web的基础设施，促进Web智能化的发展。

📄 摘要（原文）

The Web is evolving from a medium that humans browse to an environment where software agents act on behalf of users. Advances in large language models (LLMs) make natural language a practical interface for goal-directed tasks, yet most current web agents operate on low-level primitives such as clicks and keystrokes. These operations are brittle, inefficient, and difficult to verify. Complementing content-oriented efforts such as NLWeb's semantic layer for retrieval, we argue that the agentic web also requires a semantic layer for web actions. We propose \textbf{Web Verbs}, a web-scale set of typed, semantically documented functions that expose site capabilities through a uniform interface, whether implemented through APIs or robust client-side workflows. These verbs serve as stable and composable units that agents can discover, select, and synthesize into concise programs. This abstraction unifies API-based and browser-based paradigms, enabling LLMs to synthesize reliable and auditable workflows with explicit control and data flow. Verbs can carry preconditions, postconditions, policy tags, and logging support, which improves \textbf{reliability} by providing stable interfaces, \textbf{efficiency} by reducing dozens of steps into a few function calls, and \textbf{verifiability} through typed contracts and checkable traces. We present our vision, a proof-of-concept implementation, and representative case studies that demonstrate concise and robust execution compared to existing agents. Finally, we outline a roadmap for standardization to make verbs deployable and trustworthy at web scale.

Web Verbs: Typed Abstractions for Reliable Task Composition on the Agentic Web

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理