It's a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents
作者: Karolina Korgul, Yushi Yang, Arkadiusz Drohomirecki, Piotr Błaszczyk, Will Howard, Lukas Aichberger, Chris Russell, Philip H. S. Torr, Adam Mahdi, Adel Bibi
分类: cs.HC, cs.AI, cs.MA
发布日期: 2025-12-29
💡 一句话要点
提出TRAP基准以评估网络代理的劝说脆弱性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 网络代理 提示注入 劝说技术 安全性评估 动态网页
📋 核心要点
- 现有的网络代理在处理动态网页内容时,容易受到提示注入攻击,导致任务偏离。
- 本文提出TRAP基准,通过评估劝说技术对网络代理的影响,揭示其脆弱性。
- 实验结果显示,代理在25%的任务中易受影响,且小的界面变化可显著提高成功率。
📝 摘要(中文)
基于大型语言模型的网络代理在电子邮件管理和专业网络等任务中越来越普遍。然而,由于其依赖动态网页内容,这些代理容易受到提示注入攻击,即隐藏在界面元素中的对抗性指令,导致代理偏离原始任务。本文提出了任务重定向代理劝说基准(TRAP),用于评估劝说技术如何在现实任务中误导自主网络代理。研究发现,六种前沿模型的代理在平均25%的任务中易受提示注入影响(GPT-5为13%,DeepSeek-R1为43%),而小的界面或上下文变化往往会使成功率翻倍,揭示了网络代理系统性、心理驱动的脆弱性。我们还提供了一个模块化的社会工程注入框架,通过高保真网站克隆进行受控实验,便于进一步扩展基准。
🔬 方法详解
问题定义:本文旨在解决网络代理在动态网页环境中易受提示注入攻击的问题。现有方法未能有效识别和防御这些对抗性指令,导致代理任务执行不稳定。
核心思路:提出TRAP基准,通过系统性评估劝说技术对网络代理的影响,揭示其在真实任务中的脆弱性。设计上考虑了多种劝说策略和环境变化,以全面评估代理的反应。
技术框架:整体架构包括劝说技术模块、任务评估模块和实验设置模块。劝说技术模块负责生成对抗性指令,任务评估模块用于评估代理在不同任务中的表现,实验设置模块则提供高保真网站克隆进行测试。
关键创新:最重要的创新在于引入了TRAP基准,系统性地评估了六种前沿模型在面对劝说技术时的脆弱性。这一方法与现有的单一模型评估方法有本质区别,提供了更全面的视角。
关键设计:在实验中,采用了多种劝说策略和界面变化,设置了不同的任务场景。损失函数设计上考虑了代理的任务成功率和劝说成功率,以便更好地评估代理的脆弱性。具体参数设置和网络结构细节在论文中进行了详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,六种前沿模型在平均25%的任务中易受提示注入影响,其中GPT-5的易受影响率为13%,而DeepSeek-R1则高达43%。小的界面或上下文变化往往使成功率翻倍,揭示了网络代理的系统性脆弱性。
🎯 应用场景
该研究的潜在应用领域包括网络安全、智能助手和自动化系统等。通过识别和评估网络代理的脆弱性,可以为设计更安全的智能系统提供指导,减少因提示注入攻击导致的风险。未来,该基准可能推动更广泛的研究,提升网络代理的安全性和可靠性。
📄 摘要(原文)
Web-based agents powered by large language models are increasingly used for tasks such as email management or professional networking. Their reliance on dynamic web content, however, makes them vulnerable to prompt injection attacks: adversarial instructions hidden in interface elements that persuade the agent to divert from its original task. We introduce the Task-Redirecting Agent Persuasion Benchmark (TRAP), an evaluation for studying how persuasion techniques misguide autonomous web agents on realistic tasks. Across six frontier models, agents are susceptible to prompt injection in 25\% of tasks on average (13\% for GPT-5 to 43\% for DeepSeek-R1), with small interface or contextual changes often doubling success rates and revealing systemic, psychologically driven vulnerabilities in web-based agents. We also provide a modular social-engineering injection framework with controlled experiments on high-fidelity website clones, allowing for further benchmark expansion.