DECEPTICON: How Dark Patterns Manipulate Web Agents

📄 arXiv: 2512.22894v1 📥 PDF

作者: Phil Cuvin, Hao Zhu, Diyi Yang

分类: cs.CR, cs.AI

发布日期: 2025-12-28


💡 一句话要点

DECEPTICON:揭示暗黑模式对Web智能体的操纵风险并提出评估环境

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 暗黑模式 Web智能体 对抗攻击 鲁棒性 用户界面 环境评估 指令遵循

📋 核心要点

  1. Web智能体易受暗黑模式操纵,导致执行与用户意图相悖的操作,现有方法缺乏对此类风险的有效评估。
  2. 提出DECEPTICON环境,用于隔离测试和评估暗黑模式对Web智能体的操纵能力,包含生成和真实世界的Web导航任务。
  3. 实验表明,暗黑模式能显著影响智能体行为,且模型越大、推理能力越强,越容易受影响,现有防御措施效果不佳。

📝 摘要(中文)

欺骗性的用户界面设计,即通常所说的暗黑模式,广泛存在于网络中,它们操纵用户执行与其目标不符的操作。本文表明,暗黑模式能够有效地引导智能体的行为轨迹,对智能体的鲁棒性构成重大风险。为了量化这种风险,我们提出了DECEPTICON,一个用于隔离测试单个暗黑模式的环境。DECEPTICON包含700个带有暗黑模式的Web导航任务——600个生成任务和100个真实任务,旨在衡量指令遵循的成功率和暗黑模式的有效性。实验结果表明,在最先进的智能体中,暗黑模式成功地将智能体的行为轨迹引导至恶意结果的比例超过70%(生成任务和真实任务),而人类的平均水平为31%。此外,我们发现暗黑模式的有效性与模型大小和测试时的推理能力呈正相关,使得更大、更强大的模型更容易受到攻击。包括上下文提示和防护模型在内的领先对抗攻击对策,未能持续降低暗黑模式干预的成功率。我们的研究结果表明,暗黑模式是Web智能体面临的潜在且未缓解的风险,突显了迫切需要针对操纵性设计的强大防御措施。

🔬 方法详解

问题定义:论文旨在解决Web智能体在面对暗黑模式时,容易被误导执行非预期行为的问题。现有方法缺乏对暗黑模式的系统性评估和有效防御,导致智能体鲁棒性不足,容易受到恶意操纵。

核心思路:核心思路是通过构建一个专门的环境DECEPTICON,来隔离和量化暗黑模式对Web智能体的操纵效果。通过设计包含多种暗黑模式的Web导航任务,评估智能体在遵循指令时的成功率以及被暗黑模式误导的程度。

技术框架:DECEPTICON环境包含两个主要组成部分:一是任务生成器,用于生成包含不同暗黑模式的Web导航任务;二是评估模块,用于评估智能体在这些任务中的表现。任务分为生成任务和真实任务,生成任务用于控制变量,真实任务用于模拟真实场景。评估指标包括指令遵循成功率和暗黑模式有效性。

关键创新:关键创新在于构建了一个专门用于评估暗黑模式影响的环境DECEPTICON。该环境能够系统性地测试不同暗黑模式对Web智能体的操纵效果,并量化其风险。此外,论文还发现模型大小和推理能力与暗黑模式的有效性呈正相关,这与传统的对抗攻击研究有所不同。

关键设计:DECEPTICON包含700个Web导航任务,其中600个是生成任务,100个是真实任务。生成任务的设计考虑了不同类型的暗黑模式,例如“确认羞辱”、“隐藏成本”等。评估过程中,使用不同的Web智能体模型,并采用指令遵循成功率和暗黑模式有效性作为评估指标。论文还尝试了上下文提示和防护模型等防御措施,但效果有限。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,暗黑模式成功地将智能体的行为轨迹引导至恶意结果的比例超过70%(生成任务和真实任务),而人类的平均水平为31%。此外,研究发现暗黑模式的有效性与模型大小和测试时的推理能力呈正相关。现有的对抗攻击防御措施,如上下文提示和防护模型,未能有效降低暗黑模式的成功率。

🎯 应用场景

该研究成果可应用于提升Web智能体的安全性和鲁棒性,使其能够更好地抵御暗黑模式的操纵。此外,DECEPTICON环境可以作为评估和改进Web智能体防御能力的基准平台,推动相关领域的研究进展。该研究还有助于提高用户对暗黑模式的认知,促进更透明和负责任的Web设计。

📄 摘要(原文)

Deceptive UI designs, widely instantiated across the web and commonly known as dark patterns, manipulate users into performing actions misaligned with their goals. In this paper, we show that dark patterns are highly effective in steering agent trajectories, posing a significant risk to agent robustness. To quantify this risk, we introduce DECEPTICON, an environment for testing individual dark patterns in isolation. DECEPTICON includes 700 web navigation tasks with dark patterns -- 600 generated tasks and 100 real-world tasks, designed to measure instruction-following success and dark pattern effectiveness. Across state-of-the-art agents, we find dark patterns successfully steer agent trajectories towards malicious outcomes in over 70% of tested generated and real-world tasks -- compared to a human average of 31%. Moreover, we find that dark pattern effectiveness correlates positively with model size and test-time reasoning, making larger, more capable models more susceptible. Leading countermeasures against adversarial attacks, including in-context prompting and guardrail models, fail to consistently reduce the success rate of dark pattern interventions. Our findings reveal dark patterns as a latent and unmitigated risk to web agents, highlighting the urgent need for robust defenses against manipulative designs.