Building the Web for Agents: A Declarative Framework for Agent-Web Interaction
作者: Sven Schultze, Meike Verena Kietzmann, Nils-Lucas Schönfeld, Ruth Stock-Homburg
分类: cs.HC, cs.AI, cs.CL, cs.CY, cs.MA
发布日期: 2025-11-14
备注: for associated documentation, see https://svenschultze.github.io/VOIX/
💡 一句话要点
VOIX:构建面向Agent的Web,实现可靠、可审计和保护隐私的Agent-Web交互
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: Agent-Web交互 声明式框架 AI Agent Web自动化 人机协作
📋 核心要点
- 现有Agent与Web交互方式依赖于从用户界面推断可供性,导致交互脆弱、效率低且存在安全隐患。
- VOIX框架通过引入
和 标签,允许开发者声明式地定义Agent可用的操作和相关状态,构建机器可读的契约。 - 黑客马拉松实验表明,开发者能够快速利用VOIX构建支持Agent的Web应用,验证了框架的实用性、可学习性和表达性。
📝 摘要(中文)
随着自主AI Agent在Web上的日益普及,一个根本性的不匹配问题日益突出:Agent必须从面向人类的用户界面推断出可供性,导致交互脆弱、低效且不安全。为了解决这个问题,我们引入了VOIX,这是一个Web原生框架,它使网站能够通过简单的声明式HTML元素,为AI Agent公开可靠、可审计和保护隐私的功能。VOIX引入了
🔬 方法详解
问题定义:当前AI Agent与Web交互的主要问题在于Agent需要理解为人类设计的用户界面,从中推断出可执行的操作(即“可供性”)。这种推断过程容易出错,导致交互不稳定、效率低下,并且可能存在安全风险。现有的方法缺乏一种标准化的、机器可读的方式来描述Web应用的功能,使得Agent难以可靠地与Web进行交互。
核心思路:VOIX的核心思路是让Web开发者能够显式地声明Web应用的功能,以便AI Agent能够直接理解和利用这些功能。通过引入新的HTML标签(
技术框架:VOIX框架主要包含两个核心组件:
关键创新:VOIX最重要的创新在于它提供了一种声明式的、机器可读的方式来描述Web应用的功能。与现有的基于UI分析的方法相比,VOIX避免了Agent需要从用户界面推断可供性的过程,从而提高了交互的可靠性和效率。此外,VOIX还通过将对话交互与网站分离来保护用户隐私。
关键设计:VOIX的关键设计在于
🖼️ 关键图片
📊 实验亮点
在为期三天的黑客马拉松中,16名开发者使用VOIX框架构建了各种支持Agent的Web应用。实验结果表明,开发者无论之前的经验如何,都能够快速掌握VOIX框架并构建功能齐全的应用,验证了VOIX的实用性、可学习性和表达性。具体的性能数据和对比基线未在摘要中提及。
🎯 应用场景
VOIX框架可应用于各种需要AI Agent与Web交互的场景,例如智能助手、自动化任务处理、智能客服等。通过VOIX,Agent可以更可靠、更安全地与Web应用进行交互,从而提高工作效率和用户体验。未来,VOIX有望成为Agentic Web的基础设施,促进人机协作的进一步发展。
📄 摘要(原文)
The increasing deployment of autonomous AI agents on the web is hampered by a fundamental misalignment: agents must infer affordances from human-oriented user interfaces, leading to brittle, inefficient, and insecure interactions. To address this, we introduce VOIX, a web-native framework that enables websites to expose reliable, auditable, and privacy-preserving capabilities for AI agents through simple, declarative HTML elements. VOIX introduces
and tags, allowing developers to explicitly define available actions and relevant state, thereby creating a clear, machine-readable contract for agent behavior. This approach shifts control to the website developer while preserving user privacy by disconnecting the conversational interactions from the website. We evaluated the framework's practicality, learnability, and expressiveness in a three-day hackathon study with 16 developers. The results demonstrate that participants, regardless of prior experience, were able to rapidly build diverse and functional agent-enabled web applications. Ultimately, this work provides a foundational mechanism for realizing the Agentic Web, enabling a future of seamless and secure human-AI collaboration on the web.