TrojanRobot: Physical-world Backdoor Attacks Against VLM-based Robotic Manipulation
作者: Xianlong Wang, Hewen Pan, Hangtao Zhang, Minghui Li, Shengshan Hu, Ziqi Zhou, Lulu Xue, Aishan Liu, Yunpeng Jiang, Leo Yu Zhang, Xiaohua Jia
分类: cs.RO, cs.AI
发布日期: 2024-11-18 (更新: 2025-09-24)
💡 一句话要点
TrojanRobot:针对基于VLM的机器人操作的物理世界后门攻击
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人操作 后门攻击 视觉语言模型 物理世界 安全性
📋 核心要点
- 现有的机器人策略后门攻击主要集中在模拟器中,难以在真实的物理世界中实现。
- TrojanRobot通过模块化策略中毒,将后门模块嵌入视觉感知模块,从而控制整个机器人策略。
- 实验表明,TrojanRobot在物理世界中具有广泛的有效性和隐蔽性,适用于多种VLM和任务。
📝 摘要(中文)
本文提出了一种名为TrojanRobot的、高度隐蔽且广泛有效的物理世界机器人后门攻击。该方法通过将后门模块嵌入到模块化的机器人策略中,实现对策略视觉感知模块的后门控制,从而控制整个机器人策略。基础实现利用经过后门微调的VLM作为后门模块。为了增强其在物理环境中的泛化能力,本文提出了一种主要实现,利用LVLM作为后门的范例,并开发了三种类型的prime攻击,即置换、停滞和故意攻击,从而实现更细粒度的后门。在UR3e机械臂上,使用基于四种VLM的机器人策略,针对18个任务指令进行了大量实验,证明了TrojanRobot的广泛有效性和物理世界的隐蔽性。
🔬 方法详解
问题定义:论文旨在解决现有机器人后门攻击方法无法有效应用于物理世界的问题。现有的后门攻击主要在模拟环境中进行,缺乏在真实物理环境中的泛化能力和隐蔽性,容易被检测和防御。此外,现有方法通常依赖于特定的触发条件,灵活性较差。
核心思路:论文的核心思路是将后门攻击嵌入到模块化的机器人策略中,具体来说,通过修改视觉感知模块(通常是VLM),使得在特定触发条件下,机器人执行攻击者预设的行为。这种模块化的设计使得后门攻击更加隐蔽,并且可以灵活地应用于不同的机器人策略和任务。同时,利用LVLM作为后门,进一步提升了攻击的泛化能力。
技术框架:TrojanRobot的整体框架包括以下几个主要模块:1) 目标机器人策略:基于VLM的模块化机器人控制策略。2) 后门模块:一个经过后门微调的VLM,用于替换或增强原始策略的视觉感知模块。3) 触发机制:用于激活后门模块的触发条件,可以是特定的视觉模式或指令。4) 攻击策略:后门激活后,机器人执行的恶意行为。论文提出了两种主要的实现方式:一种是直接使用后门微调的VLM作为后门模块,另一种是利用LVLM作为后门,并设计了三种prime攻击方式(置换、停滞和故意攻击)。
关键创新:TrojanRobot的关键创新在于:1) 提出了模块化策略中毒的方法,将后门攻击嵌入到机器人策略的视觉感知模块中,提高了攻击的隐蔽性和灵活性。2) 利用LVLM作为后门,增强了攻击在物理环境中的泛化能力。3) 设计了三种prime攻击方式(置换、停滞和故意攻击),实现了更细粒度的后门控制。
关键设计:在后门微调过程中,论文使用了特定的数据集和损失函数,以确保后门模块能够在特定触发条件下激活,并执行攻击者预设的行为。对于LVLM后门,论文设计了三种prime攻击方式:置换攻击通过改变物体的排列顺序来触发后门;停滞攻击通过使机器人停止运动来触发后门;故意攻击通过引导机器人执行错误的操作来触发后门。这些攻击方式的设计考虑了物理环境的特点,并旨在提高攻击的隐蔽性和有效性。
📊 实验亮点
实验结果表明,TrojanRobot能够有效地攻击基于不同VLM(如CLIP、ViT等)的机器人策略,在18个不同的任务指令下均表现出良好的攻击效果。与没有后门的原始策略相比,TrojanRobot能够在触发条件下显著改变机器人的行为,实现攻击者的目标。此外,实验还验证了TrojanRobot在物理环境中的隐蔽性,表明该攻击难以被人类观察者或现有的防御机制检测到。
🎯 应用场景
TrojanRobot的研究成果可以应用于评估和增强基于VLM的机器人系统的安全性。该研究揭示了此类系统面临的潜在安全风险,并为开发更强大的防御机制提供了思路。此外,该研究还可以用于开发更安全的机器人控制策略,防止恶意攻击者利用后门控制机器人,造成财产损失甚至人身伤害。
📄 摘要(原文)
Robotic manipulation in the physical world is increasingly empowered by \textit{large language models} (LLMs) and \textit{vision-language models} (VLMs), leveraging their understanding and perception capabilities. Recently, various attacks against such robotic policies have been proposed, with backdoor attacks drawing considerable attention for their high stealth and strong persistence capabilities. However, existing backdoor efforts are limited to simulators and suffer from physical-world realization. To address this, we propose \textit{TrojanRobot}, a highly stealthy and broadly effective robotic backdoor attack in the physical world. Specifically, we introduce a module-poisoning approach by embedding a backdoor module into the modular robotic policy, enabling backdoor control over the policy's visual perception module thereby backdooring the entire robotic policy. Our vanilla implementation leverages a backdoor-finetuned VLM to serve as the backdoor module. To enhance its generalization in physical environments, we propose a prime implementation, leveraging the LVLM-as-a-backdoor paradigm and developing three types of prime attacks, \ie, \textit{permutation}, \textit{stagnation}, and \textit{intentional} attacks, thus achieving finer-grained backdoors. Extensive experiments on the UR3e manipulator with 18 task instructions using robotic policies based on four VLMs demonstrate the broad effectiveness and physical-world stealth of TrojanRobot. Our attack's video demonstrations are available via a github link https://trojanrobot.github.io.