Building the Web for Agents: A Declarative Framework for Agent-Web Interaction

📄 arXiv: 2511.11287v1 📥 PDF

作者: Sven Schultze, Meike Verena Kietzmann, Nils-Lucas Schönfeld, Ruth Stock-Homburg

分类: cs.HC, cs.AI, cs.CL, cs.CY, cs.MA

发布日期: 2025-11-14

备注: for associated documentation, see https://svenschultze.github.io/VOIX/


💡 一句话要点

VOIX:构建面向Agent的Web,实现可靠、可审计和保护隐私的Agent-Web交互

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: Agent-Web交互 声明式框架 AI Agent Web自动化 人机协作

📋 核心要点

  1. 现有Agent与Web交互方式依赖于从用户界面推断可供性,导致交互脆弱、效率低且存在安全隐患。
  2. VOIX框架通过引入标签,允许开发者声明式地定义Agent可用的操作和相关状态,构建机器可读的契约。
  3. 黑客马拉松实验表明,开发者能够快速利用VOIX构建支持Agent的Web应用,验证了框架的实用性、可学习性和表达性。

📝 摘要(中文)

随着自主AI Agent在Web上的日益普及,一个根本性的不匹配问题日益突出:Agent必须从面向人类的用户界面推断出可供性,导致交互脆弱、低效且不安全。为了解决这个问题,我们引入了VOIX,这是一个Web原生框架,它使网站能够通过简单的声明式HTML元素,为AI Agent公开可靠、可审计和保护隐私的功能。VOIX引入了标签,允许开发者显式定义可用的操作和相关的状态,从而为Agent的行为创建一个清晰的、机器可读的契约。这种方法将控制权转移给网站开发者,同时通过将对话交互与网站分离来保护用户隐私。我们在一个为期三天的黑客马拉松研究中评估了该框架的实用性、可学习性和表达性,共有16名开发者参与。结果表明,参与者无论之前的经验如何,都能够快速构建多样化且功能齐全的、支持Agent的Web应用程序。最终,这项工作为实现Agentic Web提供了一种基础机制,从而在Web上实现无缝和安全的人机协作的未来。

🔬 方法详解

问题定义:当前AI Agent与Web交互的主要问题在于Agent需要理解为人类设计的用户界面,从中推断出可执行的操作(即“可供性”)。这种推断过程容易出错,导致交互不稳定、效率低下,并且可能存在安全风险。现有的方法缺乏一种标准化的、机器可读的方式来描述Web应用的功能,使得Agent难以可靠地与Web进行交互。

核心思路:VOIX的核心思路是让Web开发者能够显式地声明Web应用的功能,以便AI Agent能够直接理解和利用这些功能。通过引入新的HTML标签(),VOIX提供了一种声明式的方式来定义Agent可以执行的操作以及相关的上下文信息。这种方法将控制权从Agent转移到Web开发者,从而提高了交互的可靠性和安全性。

技术框架:VOIX框架主要包含两个核心组件:标签和标签。标签用于定义Agent可以执行的操作,例如“搜索产品”、“添加购物车”等。每个标签可以包含输入参数和输出描述,以便Agent了解如何使用该工具。标签用于描述Web应用的状态,例如“当前页面”、“用户信息”等。Agent可以使用这些上下文信息来决定执行哪些操作。整个框架基于标准的Web技术(HTML),易于集成到现有的Web应用中。

关键创新:VOIX最重要的创新在于它提供了一种声明式的、机器可读的方式来描述Web应用的功能。与现有的基于UI分析的方法相比,VOIX避免了Agent需要从用户界面推断可供性的过程,从而提高了交互的可靠性和效率。此外,VOIX还通过将对话交互与网站分离来保护用户隐私。

关键设计:VOIX的关键设计在于标签的定义。这些标签需要足够灵活,以便能够描述各种Web应用的功能,同时又需要足够简单,以便开发者易于使用。论文中没有明确提及具体的参数设置、损失函数或网络结构,因为VOIX主要是一个框架,而不是一个具体的机器学习模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在为期三天的黑客马拉松中,16名开发者使用VOIX框架构建了各种支持Agent的Web应用。实验结果表明,开发者无论之前的经验如何,都能够快速掌握VOIX框架并构建功能齐全的应用,验证了VOIX的实用性、可学习性和表达性。具体的性能数据和对比基线未在摘要中提及。

🎯 应用场景

VOIX框架可应用于各种需要AI Agent与Web交互的场景,例如智能助手、自动化任务处理、智能客服等。通过VOIX,Agent可以更可靠、更安全地与Web应用进行交互,从而提高工作效率和用户体验。未来,VOIX有望成为Agentic Web的基础设施,促进人机协作的进一步发展。

📄 摘要(原文)

The increasing deployment of autonomous AI agents on the web is hampered by a fundamental misalignment: agents must infer affordances from human-oriented user interfaces, leading to brittle, inefficient, and insecure interactions. To address this, we introduce VOIX, a web-native framework that enables websites to expose reliable, auditable, and privacy-preserving capabilities for AI agents through simple, declarative HTML elements. VOIX introduces and tags, allowing developers to explicitly define available actions and relevant state, thereby creating a clear, machine-readable contract for agent behavior. This approach shifts control to the website developer while preserving user privacy by disconnecting the conversational interactions from the website. We evaluated the framework's practicality, learnability, and expressiveness in a three-day hackathon study with 16 developers. The results demonstrate that participants, regardless of prior experience, were able to rapidly build diverse and functional agent-enabled web applications. Ultimately, this work provides a foundational mechanism for realizing the Agentic Web, enabling a future of seamless and secure human-AI collaboration on the web.