sudo rm -rf agentic_security

📄 arXiv: 2503.20279v3 📥 PDF

作者: Sejin Lee, Jian Kim, Haon Park, Ashkan Yousefpour, Sangyoon Yu, Min Song

分类: cs.CL, cs.AI, cs.CR

发布日期: 2025-03-26 (更新: 2025-06-08)

备注: Accepted ACL 2025 Industry track


💡 一句话要点

提出SUDO框架,针对计算机代理的拒绝训练安全防护进行有效攻击

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 计算机代理安全 拒绝训练 视觉语言模型 攻击框架 安全漏洞

📋 核心要点

  1. 现有计算机代理的拒绝训练安全防护存在漏洞,容易受到恶意攻击的绕过。
  2. SUDO框架通过Detox2Tox机制,将有害请求转化为良性请求,再重新引入恶意内容,实现攻击。
  3. 实验表明,SUDO在真实任务中对Claude等代理具有较高的攻击成功率,突显了安全风险。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地被部署为计算机使用代理,在真实的桌面或Web环境中自主执行任务。这种演进极大地扩展了人类的实际用例,但也带来了严重的安全风险。我们提出了SUDO(基于屏幕的通用Detox2Tox攻击),这是一个新颖的攻击框架,可以系统地绕过商业计算机使用代理(如Claude for Computer Use)中经过拒绝训练的安全措施。其核心机制Detox2Tox通过解毒将有害请求(代理最初拒绝)转换为看似良性的请求,从高级视觉语言模型(VLMs)获取详细指令,然后在执行前通过毒化重新引入恶意内容。与传统的越狱不同,SUDO基于内置的拒绝反馈迭代地改进其攻击,使其对强大的策略过滤器越来越有效。在跨越50个真实世界任务和多个最先进的VLMs的广泛测试中,SUDO在Claude for Computer Use中实现了高达24.41%(无改进)和高达41.33%(通过迭代改进)的惊人攻击成功率。通过揭示这些漏洞并展示在真实计算环境中利用它们的容易程度,本文强调了对强大、上下文感知安全措施的迫切需求。警告:本文包含有害或冒犯性的模型输出。

🔬 方法详解

问题定义:论文旨在解决计算机代理在实际应用中面临的安全漏洞问题。现有的大型语言模型虽然经过了拒绝训练,以防止其执行有害操作,但仍然容易受到攻击,攻击者可以通过巧妙的手段绕过这些安全措施,从而使代理执行恶意任务。现有的防御方法无法有效应对这种攻击。

核心思路:论文的核心思路是利用视觉语言模型(VLM)的强大能力,将恶意请求进行伪装,使其看起来无害,从而绕过代理的拒绝机制。具体来说,论文提出了Detox2Tox机制,该机制首先将有害请求“解毒”,使其看起来无害,然后利用VLM生成详细的执行指令,最后在执行前将恶意内容“毒化”,从而使代理在不知情的情况下执行恶意任务。

技术框架:SUDO框架主要包含以下几个模块:1) 请求生成器:生成初始的恶意请求。2) 解毒器(Detoxifier):将恶意请求转换为看似无害的请求。3) 指令生成器:利用VLM根据解毒后的请求生成详细的执行指令。4) 毒化器(Toxifier):在执行前将恶意内容重新引入到指令中。5) 执行器:执行最终的指令。整个流程通过迭代的方式进行优化,根据代理的拒绝反馈不断调整攻击策略。

关键创新:SUDO框架的关键创新在于Detox2Tox机制,该机制能够有效地绕过代理的拒绝训练安全防护。与传统的越狱方法不同,SUDO框架不是直接攻击代理的底层模型,而是通过伪装请求的方式来欺骗代理,使其认为执行的是无害任务。此外,SUDO框架还采用了迭代优化的方法,根据代理的反馈不断调整攻击策略,从而提高了攻击的成功率。

关键设计:论文中没有明确给出关键参数设置、损失函数、网络结构等技术细节。解毒器和毒化器的具体实现方式未知,指令生成器使用的VLM模型也未明确说明。迭代优化过程中的具体算法和参数设置也未知。这些细节需要参考论文原文或相关代码才能进一步了解。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SUDO框架在Claude for Computer Use上取得了显著的攻击成功率。在没有迭代改进的情况下,攻击成功率达到24.41%。通过迭代改进,攻击成功率进一步提高到41.33%。这些结果表明,SUDO框架能够有效地绕过现有计算机代理的安全防护机制,并对实际应用构成严重威胁。

🎯 应用场景

该研究揭示了计算机代理在安全方面存在的严重漏洞,强调了开发更强大的安全防护机制的必要性。研究成果可应用于评估和改进现有计算机代理的安全性能,并为未来计算机代理的安全设计提供指导。此外,该研究也提醒人们在使用计算机代理时需要保持警惕,防止恶意攻击。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly deployed as computer-use agents, autonomously performing tasks within real desktop or web environments. While this evolution greatly expands practical use cases for humans, it also creates serious security exposures. We present SUDO (Screen-based Universal Detox2Tox Offense), a novel attack framework that systematically bypasses refusal-trained safeguards in commercial computer-use agents, such as Claude for Computer Use. The core mechanism, Detox2Tox, transforms harmful requests (that agents initially reject) into seemingly benign requests via detoxification, secures detailed instructions from advanced vision language models (VLMs), and then reintroduces malicious content via toxification just before execution. Unlike conventional jailbreaks, SUDO iteratively refines its attacks based on a built-in refusal feedback, making it increasingly effective against robust policy filters. In extensive tests spanning 50 real-world tasks and multiple state-of-the-art VLMs, SUDO achieves a stark attack success rate of 24.41% (with no refinement), and up to 41.33% (by its iterative refinement) in Claude for Computer Use. By revealing these vulnerabilities and demonstrating the ease with which they can be exploited in real-world computing environments, this paper highlights an immediate need for robust, context-aware safeguards. WARNING: This paper includes harmful or offensive model outputs