ANNIE: Be Careful of Your Robots
作者: Yiyang Huang, Zixuan Wang, Zishen Wan, Yapeng Tian, Haobo Xu, Yinhe Han, Yiming Gan
分类: cs.AI, cs.RO
发布日期: 2025-09-03
🔗 代码/项目: GITHUB
💡 一句话要点
ANNIE:针对具身AI系统的对抗性安全攻击研究与基准测试
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身AI 对抗性攻击 安全风险 人机交互 视觉-语言-动作模型
📋 核心要点
- 现有具身AI系统易受对抗攻击,传统安全定义不足以应对物理交互带来的新风险。
- 提出ANNIE-Attack框架,通过任务分解和帧级别扰动,实现对具身AI系统安全性的有效攻击。
- 实验表明,该攻击在多种EAI模型上成功率超过50%,并在真实机器人实验中验证了其有效性。
📝 摘要(中文)
视觉-语言-动作(VLA)模型与具身AI(EAI)机器人的集成,正迅速提升机器人在以人为中心的环境中执行复杂、长时程任务的能力。然而,EAI系统也带来了严重的安全风险:被攻击的VLA模型可能直接将感官输入上的对抗性扰动转化为不安全的物理动作。传统的机器学习安全定义和方法已不再适用。EAI系统提出了新的问题,例如什么是安全,如何衡量安全,以及如何在物理交互环境中设计有效的攻击和防御机制。本文首次系统地研究了具身AI系统的对抗性安全攻击,并以人机交互的ISO标准为基础。(1)我们形式化了一个基于物理约束(如分离距离、速度和碰撞边界)的安全违规分类体系(严重、危险、有风险);(2)引入了ANNIEBench,一个包含九个安全关键场景和2400个视频-动作序列的基准,用于评估具身安全性;(3)提出了ANNIE-Attack,一个任务感知的对抗性框架,其中攻击引导模型将长时程目标分解为帧级别的扰动。对代表性EAI模型的评估表明,所有安全类别中的攻击成功率均超过50%。我们进一步展示了稀疏和自适应的攻击策略,并通过物理机器人实验验证了真实世界的影响。这些结果揭示了具身AI系统中一个先前未被充分探索但影响重大的攻击面,突显了在物理AI时代对安全驱动防御的迫切需求。
🔬 方法详解
问题定义:论文旨在解决具身AI系统中存在的安全漏洞问题,特别是视觉-语言-动作模型容易受到对抗性攻击,导致机器人产生不安全的物理行为。现有方法主要关注机器学习模型的鲁棒性,但忽略了具身AI系统与物理环境交互的特殊性,缺乏针对物理安全性的评估和防御机制。
核心思路:论文的核心思路是将对抗性攻击问题转化为一个任务感知的优化问题,通过设计一个攻击引导模型,将长时程的攻击目标分解为一系列帧级别的扰动,从而实现对具身AI系统的有效攻击。这种方法考虑了机器人与环境的交互,能够生成更具欺骗性和危险性的对抗样本。
技术框架:ANNIE-Attack框架主要包含以下几个模块:1) 安全违规分类体系:基于ISO标准,定义了严重、危险、有风险三种安全违规类型。2) ANNIEBench基准:包含九个安全关键场景和2400个视频-动作序列,用于评估具身安全性。3) 攻击引导模型:将长时程攻击目标分解为帧级别的扰动,生成对抗样本。4) EAI模型:作为被攻击的目标,可以是各种视觉-语言-动作模型。
关键创新:论文最重要的技术创新点在于提出了一个任务感知的对抗性攻击框架,该框架能够将长时程的攻击目标分解为帧级别的扰动,从而实现对具身AI系统的有效攻击。与传统的对抗性攻击方法相比,该方法考虑了机器人与环境的交互,能够生成更具欺骗性和危险性的对抗样本。此外,论文还提出了一个基于ISO标准的安全违规分类体系和一个包含多个安全关键场景的基准测试集,为具身AI安全研究提供了重要的资源。
关键设计:攻击引导模型的设计是关键。具体来说,该模型可能采用强化学习或生成对抗网络(GAN)等技术,以学习如何生成能够最大程度地导致安全违规的对抗性扰动。损失函数的设计需要考虑多个因素,例如扰动的幅度、攻击的成功率以及安全违规的严重程度。此外,论文还探索了稀疏和自适应的攻击策略,以提高攻击的效率和隐蔽性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ANNIE-Attack框架在多个代表性EAI模型上取得了超过50%的攻击成功率,证明了具身AI系统面临严重的安全威胁。研究还验证了稀疏和自适应攻击策略的有效性,能够在保证攻击成功率的同时,降低扰动的幅度,提高攻击的隐蔽性。真实机器人实验进一步证实了对抗性攻击对物理世界的影响。
🎯 应用场景
该研究成果可应用于提升具身AI机器人在医疗、仓储、家庭服务等领域的安全性。通过对抗性攻击评估,可以发现系统潜在的安全漏洞,并指导开发更鲁棒的防御机制,从而降低机器人误操作或被恶意利用的风险,保障人身安全和财产安全。未来,该研究可促进安全导向的具身AI系统设计,推动相关安全标准的制定。
📄 摘要(原文)
The integration of vision-language-action (VLA) models into embodied AI (EAI) robots is rapidly advancing their ability to perform complex, long-horizon tasks in humancentric environments. However, EAI systems introduce critical security risks: a compromised VLA model can directly translate adversarial perturbations on sensory input into unsafe physical actions. Traditional safety definitions and methodologies from the machine learning community are no longer sufficient. EAI systems raise new questions, such as what constitutes safety, how to measure it, and how to design effective attack and defense mechanisms in physically grounded, interactive settings. In this work, we present the first systematic study of adversarial safety attacks on embodied AI systems, grounded in ISO standards for human-robot interactions. We (1) formalize a principled taxonomy of safety violations (critical, dangerous, risky) based on physical constraints such as separation distance, velocity, and collision boundaries; (2) introduce ANNIEBench, a benchmark of nine safety-critical scenarios with 2,400 video-action sequences for evaluating embodied safety; and (3) ANNIE-Attack, a task-aware adversarial framework with an attack leader model that decomposes long-horizon goals into frame-level perturbations. Our evaluation across representative EAI models shows attack success rates exceeding 50% across all safety categories. We further demonstrate sparse and adaptive attack strategies and validate the real-world impact through physical robot experiments. These results expose a previously underexplored but highly consequential attack surface in embodied AI systems, highlighting the urgent need for security-driven defenses in the physical AI era. Code is available at https://github.com/RLCLab/Annie.