Jailbreaking LLM-Controlled Robots
作者: Alexander Robey, Zachary Ravichandran, Vijay Kumar, Hamed Hassani, George J. Pappas
分类: cs.RO, cs.AI
发布日期: 2024-10-17 (更新: 2024-11-09)
💡 一句话要点
提出RoboPAIR算法,成功破解LLM控制的机器人,引发安全风险关注。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人安全 LLM越狱 对抗性攻击 物理安全 机器人控制
📋 核心要点
- 现有LLM易受越狱攻击,但将其应用于机器人控制的安全风险尚未充分评估,存在潜在的物理损害风险。
- RoboPAIR算法通过精心设计的提示,绕过LLM的安全防护,诱导机器人执行有害动作,实现对LLM控制机器人的破解。
- 实验在多种机器人平台上验证了RoboPAIR的有效性,包括自动驾驶、UGV和机器狗,攻击成功率高,揭示了实际安全威胁。
📝 摘要(中文)
本文介绍了RoboPAIR,这是一种专门用于破解LLM控制机器人的算法。与针对LLM聊天机器人的文本攻击不同,RoboPAIR旨在诱导LLM控制的机器人执行有害的物理动作。研究者在三种场景下进行了实验验证:(i) 白盒环境,完全访问NVIDIA Dolphins自动驾驶LLM;(ii) 灰盒环境,部分访问配备GPT-4o规划器的Clearpath Robotics Jackal UGV机器人;(iii) 黑盒环境,仅查询访问集成GPT-3.5的宇树科技Go2机器狗。在每个场景和三个新的有害机器人动作数据集上,RoboPAIR以及几个静态基线都能够快速有效地找到破解方法,通常达到100%的攻击成功率。结果表明,破解LLM的风险远不止文本生成,破解的机器人可能在现实世界中造成物理损害。对宇树Go2的攻击是首次成功破解已部署的商业机器人系统。解决这种新兴漏洞对于确保LLM在机器人技术中的安全部署至关重要。
🔬 方法详解
问题定义:论文旨在解决LLM控制的机器人在面对恶意攻击时,可能被诱导执行有害物理动作的问题。现有方法主要关注LLM本身的文本安全,忽略了LLM与物理世界交互时的安全风险,缺乏针对机器人控制场景的有效防御机制。
核心思路:论文的核心思路是利用对抗性提示(Adversarial Prompts)绕过LLM的安全防护机制,诱导LLM生成控制机器人执行有害动作的指令。通过精心构造的提示,欺骗LLM,使其在不知情的情况下输出危险的控制指令。
技术框架:RoboPAIR算法的整体框架包含以下几个关键步骤:1) 定义有害动作:明确机器人可能造成的危害类型;2) 生成对抗性提示:利用算法自动生成能够绕过LLM安全防护的提示;3) 执行动作:将LLM生成的控制指令发送给机器人执行;4) 评估危害:评估机器人执行动作造成的实际危害程度。该框架适用于不同类型的机器人平台和LLM模型。
关键创新:该论文最重要的技术创新在于提出了RoboPAIR算法,这是第一个专门针对LLM控制机器人的越狱攻击算法。与传统的文本攻击不同,RoboPAIR关注的是如何诱导机器人执行有害的物理动作,从而造成实际的物理损害。
关键设计:RoboPAIR算法的关键设计包括:1) 对抗性提示生成策略:采用遗传算法或梯度下降等方法,自动搜索能够绕过LLM安全防护的提示;2) 危害评估指标:定义量化机器人动作危害程度的指标,例如碰撞强度、移动距离等;3) 场景设置:设计不同的机器人控制场景,模拟实际应用中可能遇到的安全风险。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RoboPAIR算法在三种不同的机器人平台上均能成功破解LLM控制系统,攻击成功率高达100%。研究者成功诱导自动驾驶系统偏离路线,控制UGV进入禁区,并让机器狗做出攻击性动作。对宇树Go2机器狗的成功破解,是首次针对已部署的商业机器人系统的越狱攻击。
🎯 应用场景
该研究成果对机器人安全领域具有重要意义,可应用于评估和提升LLM控制机器人的安全性。研究结果有助于开发更强大的安全防护机制,防止恶意攻击者利用LLM漏洞控制机器人,造成人身伤害或财产损失。此外,该研究也为LLM在其他物理系统中的安全应用提供了借鉴。
📄 摘要(原文)
The recent introduction of large language models (LLMs) has revolutionized the field of robotics by enabling contextual reasoning and intuitive human-robot interaction in domains as varied as manipulation, locomotion, and self-driving vehicles. When viewed as a stand-alone technology, LLMs are known to be vulnerable to jailbreaking attacks, wherein malicious prompters elicit harmful text by bypassing LLM safety guardrails. To assess the risks of deploying LLMs in robotics, in this paper, we introduce RoboPAIR, the first algorithm designed to jailbreak LLM-controlled robots. Unlike existing, textual attacks on LLM chatbots, RoboPAIR elicits harmful physical actions from LLM-controlled robots, a phenomenon we experimentally demonstrate in three scenarios: (i) a white-box setting, wherein the attacker has full access to the NVIDIA Dolphins self-driving LLM, (ii) a gray-box setting, wherein the attacker has partial access to a Clearpath Robotics Jackal UGV robot equipped with a GPT-4o planner, and (iii) a black-box setting, wherein the attacker has only query access to the GPT-3.5-integrated Unitree Robotics Go2 robot dog. In each scenario and across three new datasets of harmful robotic actions, we demonstrate that RoboPAIR, as well as several static baselines, finds jailbreaks quickly and effectively, often achieving 100% attack success rates. Our results reveal, for the first time, that the risks of jailbroken LLMs extend far beyond text generation, given the distinct possibility that jailbroken robots could cause physical damage in the real world. Indeed, our results on the Unitree Go2 represent the first successful jailbreak of a deployed commercial robotic system. Addressing this emerging vulnerability is critical for ensuring the safe deployment of LLMs in robotics. Additional media is available at: https://robopair.org