ceLLMate: Sandboxing Browser AI Agents

📄 arXiv: 2512.12594v1 📥 PDF

作者: Luoxi Meng, Henry Feng, Ilia Shumailov, Earlence Fernandes

分类: cs.CR, cs.LG

发布日期: 2025-12-14

备注: Homepage: https://cellmate-sandbox.github.io


💡 一句话要点

ceLLMate:提出浏览器级沙箱框架,防御浏览器AI代理的提示注入攻击。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 浏览器AI代理 提示注入攻击 沙箱 安全策略 站点地图 浏览器扩展 自动化

📋 核心要点

  1. 浏览器AI代理易受提示注入攻击,可能导致信息泄露等恶意行为,现有防御手段不足。
  2. ceLLMate通过浏览器级沙箱限制代理权限,利用站点地图弥合UI操作与语义动作间的差距。
  3. ceLLMate结合网站强制策略和自动策略预测,能有效防御多种提示注入攻击,且开销很小。

📝 摘要(中文)

浏览器AI代理(BUA)是一种新兴的自主代理,它们以类似人类的方式与Web浏览器交互,包括点击、滚动、填写表单和跨页面导航。虽然这些代理有助于自动化重复的在线任务,但它们容易受到提示注入攻击,这些攻击会诱使代理执行不需要的操作,例如泄露私人信息或发出更改状态的请求。我们提出了ceLLMate,这是一个浏览器级别的沙箱框架,它限制了代理的环境权限,并降低了提示注入的爆炸半径。我们解决了两个根本挑战:(1)策略执行中的语义鸿沟挑战,因为代理通过低级UI观察和操作来运行;然而,直接在UI级别事件上编写和执行策略是脆弱且容易出错的。为了应对这一挑战,我们引入了一个代理站点地图,将低级浏览器行为映射到高级语义动作。(2)BUA中的策略预测是常态而非例外。BUA没有应用程序开发人员来预先声明沙箱策略,因此,ceLLMate将网站编写的强制策略与自动策略预测层配对,该层从用户的自然语言任务中调整和实例化这些策略。我们将ceLLMate实现为一个与代理无关的浏览器扩展,并演示了它如何启用沙箱策略,从而有效地阻止各种类型的提示注入攻击,且开销可忽略不计。

🔬 方法详解

问题定义:论文旨在解决浏览器AI代理(BUA)易受提示注入攻击的问题。现有的BUA缺乏有效的安全机制,攻击者可以通过精心设计的提示诱导代理执行恶意操作,例如泄露用户隐私信息或进行未授权的交易。直接在UI级别事件上进行策略控制非常脆弱且容易出错,难以有效防御。

核心思路:ceLLMate的核心思路是构建一个浏览器级别的沙箱环境,限制BUA的环境权限,从而降低提示注入攻击的潜在危害。通过引入代理站点地图,将低级UI操作映射到高级语义动作,从而弥合策略执行中的语义鸿沟。同时,结合网站预定义的强制策略和自动策略预测,实现更灵活和有效的安全防护。

技术框架:ceLLMate作为一个浏览器扩展实现,其主要包含以下几个模块:1) 代理站点地图构建模块:负责将低级浏览器行为映射到高级语义动作。2) 策略执行模块:根据站点地图和预定义的策略,对BUA的行为进行监控和限制。3) 策略预测模块:根据用户的自然语言任务,自动预测并实例化相应的安全策略。整体流程是,BUA执行操作时,ceLLMate会根据站点地图将其映射为语义动作,然后策略执行模块会检查该动作是否符合预定义的或预测的策略,如果不符合,则阻止该操作。

关键创新:ceLLMate的关键创新在于其浏览器级别的沙箱架构和代理站点地图的设计。与传统的安全方法相比,ceLLMate能够更细粒度地控制BUA的行为,并能够理解BUA的语义意图,从而更有效地防御提示注入攻击。自动策略预测模块也使得ceLLMate能够适应不同的应用场景,无需手动配置大量的安全策略。

关键设计:代理站点地图的构建是ceLLMate的关键设计之一。论文可能使用了机器学习或规则引擎等技术,根据UI元素的属性(例如,文本内容、位置、类型)和BUA的操作(例如,点击、输入)来学习或定义UI元素与语义动作之间的映射关系。策略预测模块可能使用了自然语言处理技术,例如,文本分类或意图识别,根据用户的自然语言任务来预测相应的安全策略。具体的参数设置、损失函数、网络结构等技术细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ceLLMate通过实验验证了其有效性,能够显著降低提示注入攻击的成功率,且对BUA的性能影响很小,开销可忽略不计。具体的性能数据、对比基线和提升幅度未知。

🎯 应用场景

ceLLMate可应用于各种需要使用浏览器AI代理的场景,例如自动化数据录入、在线购物、信息检索等。通过提供安全可靠的运行环境,ceLLMate能够降低BUA被恶意利用的风险,保护用户隐私和数据安全,促进BUA技术的广泛应用。

📄 摘要(原文)

Browser-using agents (BUAs) are an emerging class of autonomous agents that interact with web browsers in human-like ways, including clicking, scrolling, filling forms, and navigating across pages. While these agents help automate repetitive online tasks, they are vulnerable to prompt injection attacks that can trick an agent into performing undesired actions, such as leaking private information or issuing state-changing requests. We propose ceLLMate, a browser-level sandboxing framework that restricts the agent's ambient authority and reduces the blast radius of prompt injections. We address two fundamental challenges: (1) The semantic gap challenge in policy enforcement arises because the agent operates through low-level UI observations and manipulations; however, writing and enforcing policies directly over UI-level events is brittle and error-prone. To address this challenge, we introduce an agent sitemap that maps low-level browser behaviors to high-level semantic actions. (2) Policy prediction in BUAs is the norm rather than the exception. BUAs have no app developer to pre-declare sandboxing policies, and thus, ceLLMate pairs website-authored mandatory policies with an automated policy-prediction layer that adapts and instantiates these policies from the user's natural-language task. We implement ceLLMate as an agent-agnostic browser extension and demonstrate how it enables sandboxing policies that effectively block various types of prompt injection attacks with negligible overhead.