Permission Manifests for Web Agents
作者: Samuele Marro, Alan Chan, Xinxing Ren, Lewis Hammond, Jesse Wright, Gurjyot Wanga, Tiziano Piccardi, Nuno Campos, Tobin South, Jialin Yu, Sunando Sengupta, Eric Sommerlade, Alex Pentland, Philip Torr, Jiaxin Pei
分类: cs.CY, cs.AI, cs.MA, cs.NI
发布日期: 2025-12-07 (更新: 2026-01-12)
备注: Authored by the Lightweight Agent Standards Working Group https://las-wg.org/
💡 一句话要点
提出agent-permissions.json,解决LLM驱动Web Agent权限管理难题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Web Agent 权限管理 大型语言模型 robots.txt JSON 自动化 网络爬虫
📋 核心要点
- 现有Web Agent缺乏统一的权限管理机制,导致网站所有者只能采取一刀切的封禁策略,阻碍了Agent的良性应用。
- 提出agent-permissions.json,允许网站以JSON格式声明Agent可执行的操作,Agent解析该文件后自动遵守,实现精细化权限控制。
- 该方案旨在建立一个低摩擦的协调机制,使网站所有者能够专注于阻止不合规的Agent,从而促进Web Agent生态的健康发展。
📝 摘要(中文)
基于大型语言模型(LLM)的Web Agent的兴起,代表了与Web自动交互方式的重大转变。与遵循robots.txt等简单约定的传统爬虫不同,现代Agent以复杂的方式与网站交互:导航复杂界面、提取结构化信息并完成端到端任务。现有的治理机制并非为这些能力而设计。由于缺乏指定允许和不允许交互的方式,网站所有者越来越多地依赖于全面阻止和验证码,这破坏了高效自动化、便捷的电子商务服务和辅助工具等有益应用。我们引入了agent-permissions.json,这是一种类似于robots.txt的轻量级清单,网站可以在其中指定允许的交互,并在可用时补充API参考。该框架提供了一种低摩擦的协调机制:网站所有者只需要编写一个简单的JSON文件,而Agent可以轻松解析并自动实施清单的规定。网站所有者可以专注于阻止不合规的Agent,而不是阻止整个Agent。通过将robots.txt的精神扩展到LLM介导的交互时代,并补充AIPref等数据使用倡议,该清单建立了一个合规框架,可以在尊重网站所有者偏好的同时实现有益的Agent交互。
🔬 方法详解
问题定义:论文旨在解决基于LLM的Web Agent与网站交互时缺乏明确权限规范的问题。现有方法,如robots.txt,不足以应对现代Agent复杂的操作,导致网站所有者只能采取粗暴的封禁手段,损害了Agent的潜在价值。
核心思路:核心思路是引入一种轻量级的、易于解析的权限清单agent-permissions.json,允许网站所有者以结构化的方式声明允许Agent执行的操作,并提供相应的API参考。Agent通过解析该清单,可以自动遵守网站的权限设置,从而实现精细化的权限控制。
技术框架:整体框架包括两个主要部分:一是网站所有者创建和维护agent-permissions.json文件,其中定义了允许Agent执行的操作;二是Agent解析该文件,并根据其中的规则调整自身的行为。该框架的设计目标是低摩擦,即网站所有者只需编写简单的JSON文件,而Agent可以自动解析和实施。
关键创新:最重要的创新在于提出了agent-permissions.json这种新型的权限清单,它扩展了robots.txt的概念,使其能够适应现代Web Agent的需求。与现有方法相比,agent-permissions.json提供了更细粒度的权限控制,允许网站所有者精确地指定允许Agent执行的操作,从而避免了不必要的封禁。
关键设计:agent-permissions.json的具体格式和内容是关键设计。它应该包含Agent可以执行的操作列表,以及每个操作对应的API参考。此外,还需要考虑如何处理权限冲突、如何支持不同类型的Agent以及如何保证清单的安全性。
🖼️ 关键图片
📊 实验亮点
论文提出了agent-permissions.json,并详细描述了其设计理念和技术框架。虽然论文没有提供具体的实验数据,但其提出的方案具有很强的实用性和可行性,有望解决Web Agent权限管理领域的实际问题。该方案的价值在于提供了一种低成本、易于实施的解决方案,可以有效地平衡网站所有者和Agent开发者的利益。
🎯 应用场景
该研究成果可广泛应用于各种需要Web Agent与网站交互的场景,例如:电商比价、信息聚合、自动化测试、辅助浏览等。通过规范Agent的行为,可以提升用户体验,降低网站维护成本,并促进Web Agent生态的健康发展。未来,该方案有望成为Web Agent领域的行业标准。
📄 摘要(原文)
The rise of Large Language Model (LLM)-based web agents represents a significant shift in automated interactions with the web. Unlike traditional crawlers that follow simple conventions, such as robots$.$txt, modern agents engage with websites in sophisticated ways: navigating complex interfaces, extracting structured information, and completing end-to-end tasks. Existing governance mechanisms were not designed for these capabilities. Without a way to specify what interactions are and are not allowed, website owners increasingly rely on blanket blocking and CAPTCHAs, which undermine beneficial applications such as efficient automation, convenient use of e-commerce services, and accessibility tools. We introduce agent-permissions$.$json, a robots$.$txt-style lightweight manifest where websites specify allowed interactions, complemented by API references where available. This framework provides a low-friction coordination mechanism: website owners only need to write a simple JSON file, while agents can easily parse and automatically implement the manifest's provisions. Website owners can then focus on blocking non-compliant agents, rather than agents as a whole. By extending the spirit of robots$.$txt to the era of LLM-mediated interaction, and complementing data use initiatives such as AIPref, the manifest establishes a compliance framework that enables beneficial agent interactions while respecting site owners' preferences.