When Bots Take the Bait: Exposing and Mitigating the Emerging Social Engineering Attack in Web Automation Agent

📄 arXiv: 2601.07263v1 📥 PDF

作者: Xinyi Wu, Geng Hong, Yueyue Chen, MingXuan Liu, Feier Jin, Xudong Pan, Jiarun Dai, Baojun Liu

分类: cs.CR, cs.AI

发布日期: 2026-01-12


💡 一句话要点

提出AgentBait攻击与SUPERVISOR防御,提升Web自动化Agent安全性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Web自动化Agent 社会工程攻击 AgentBait SUPERVISOR LLM安全

📋 核心要点

  1. 现有Web自动化Agent面临社会工程攻击风险,缺乏对此类攻击的系统性研究和有效防御机制。
  2. 提出AgentBait攻击范式和SUPERVISOR防御模块,AgentBait利用Agent推理弱点诱导其执行恶意任务,SUPERVISOR则通过环境和意图一致性对齐进行防御。
  3. 实验表明,AgentBait攻击成功率高,SUPERVISOR能有效降低攻击成功率,且运行时开销较低,具有实用性。

📝 摘要(中文)

本文系统性研究了针对Web自动化Agent的社会工程攻击,并设计了一种可插拔的运行时缓解方案。提出AgentBait范式,利用Agent执行中的固有弱点,通过诱导性上下文扭曲Agent的推理,使其偏离预期目标。针对防御,提出SUPERVISOR,一个轻量级的运行时模块,它强制网页上下文和预期目标之间环境和意图的一致性对齐,以减轻执行前的不安全操作。实验结果表明,主流框架极易受到AgentBait攻击,平均攻击成功率为67.5%,在特定策略下(如伪造可信身份)峰值超过80%。与现有的轻量级防御相比,SUPERVISOR可以无缝集成到不同的Web自动化框架中,平均降低高达78.1%的攻击成功率,同时仅产生7.7%的运行时开销并保持可用性。这项工作揭示了AgentBait作为Web Agent的一个关键新威胁面,并建立了一种实用、通用的防御方法,从而提高了这个快速发展生态系统的安全性。

🔬 方法详解

问题定义:论文旨在解决Web自动化Agent面临的新型社会工程攻击问题。现有方法主要关注提示注入和后门等模型威胁,而忽略了社会工程攻击带来的风险。这些Agent在执行任务时,容易受到恶意网页内容的诱导,从而执行与用户意图不符的危险操作。

核心思路:论文的核心思路是识别并利用Agent在Web环境中的固有弱点,设计一种诱导性的攻击方式(AgentBait),同时提出一种轻量级的防御机制(SUPERVISOR)来实时监控和阻止Agent执行不安全的操作。通过环境和意图一致性对齐,确保Agent的行为符合用户的预期目标。

技术框架:整体框架包含攻击和防御两个部分。攻击部分,AgentBait通过构造特定的网页内容,例如伪造可信身份或提供虚假奖励,来诱导Agent执行恶意操作。防御部分,SUPERVISOR作为一个运行时模块,集成到Web自动化框架中,它监控Agent的每一步操作,并检查当前网页环境和Agent的意图是否一致。如果发现不一致,则阻止该操作的执行。

关键创新:最重要的创新点在于提出了AgentBait攻击范式,揭示了Web自动化Agent在社会工程攻击方面的脆弱性。同时,SUPERVISOR防御模块的设计具有通用性和实用性,可以无缝集成到不同的Web自动化框架中,而无需修改Agent的核心代码。

关键设计:SUPERVISOR的关键设计在于环境和意图一致性对齐的实现。具体而言,它会分析当前网页的DOM结构和文本内容,提取关键信息,例如网站域名、页面标题、用户输入框等。然后,它会将这些信息与Agent的预期目标进行比较,判断是否存在不一致。例如,如果Agent的目标是购买商品,但当前页面是一个钓鱼网站,SUPERVISOR就会发出警报并阻止Agent继续执行。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AgentBait攻击对主流Web自动化框架具有很高的成功率,平均达到67.5%,特定策略下甚至超过80%。SUPERVISOR防御模块能够有效降低攻击成功率,平均降低高达78.1%,同时仅带来7.7%的运行时开销,并且不影响Agent的正常使用。

🎯 应用场景

该研究成果可应用于提升各种基于LLM的Web自动化Agent的安全性,例如自动化测试工具、智能助手、以及RPA(机器人流程自动化)系统。通过部署SUPERVISOR,可以有效防止Agent受到社会工程攻击,保障用户数据安全,提高自动化系统的可靠性。

📄 摘要(原文)

Web agents, powered by large language models (LLMs), are increasingly deployed to automate complex web interactions. The rise of open-source frameworks (e.g., Browser Use, Skyvern-AI) has accelerated adoption, but also broadened the attack surface. While prior research has focused on model threats such as prompt injection and backdoors, the risks of social engineering remain largely unexplored. We present the first systematic study of social engineering attacks against web automation agents and design a pluggable runtime mitigation solution. On the attack side, we introduce the AgentBait paradigm, which exploits intrinsic weaknesses in agent execution: inducement contexts can distort the agent's reasoning and steer it toward malicious objectives misaligned with the intended task. On the defense side, we propose SUPERVISOR, a lightweight runtime module that enforces environment and intention consistency alignment between webpage context and intended goals to mitigate unsafe operations before execution. Empirical results show that mainstream frameworks are highly vulnerable to AgentBait, with an average attack success rate of 67.5% and peaks above 80% under specific strategies (e.g., trusted identity forgery). Compared with existing lightweight defenses, our module can be seamlessly integrated across different web automation frameworks and reduces attack success rates by up to 78.1% on average while incurring only a 7.7% runtime overhead and preserving usability. This work reveals AgentBait as a critical new threat surface for web agents and establishes a practical, generalizable defense, advancing the security of this rapidly emerging ecosystem. We reported the details of this attack to the framework developers and received acknowledgment before submission.