Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems

📄 arXiv: 2405.20774v3 📥 PDF

作者: Ruochen Jiao, Shaoyuan Xie, Justin Yue, Takami Sato, Lixu Wang, Yixuan Wang, Qi Alfred Chen, Qi Zhu

分类: cs.CR, cs.AI

发布日期: 2024-05-27 (更新: 2025-04-30)

备注: Accepted paper at ICLR 2025, 31 pages, including main paper, references, and appendix


💡 一句话要点

提出BALD框架,揭示具身LLM决策系统在自动驾驶和家庭机器人中的后门攻击漏洞

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 大型语言模型 后门攻击 安全漏洞 决策系统 自动驾驶 家庭机器人

📋 核心要点

  1. 现有具身AI系统依赖微调的LLM进行决策,但微调过程引入了安全漏洞,尤其是在安全攸关的场景中。
  2. 提出BALD框架,通过单词注入、场景操纵和知识注入三种攻击机制,系统性地探索LLM决策系统的攻击面。
  3. 实验表明,提出的攻击方法在自动驾驶和家庭机器人任务中有效且隐蔽,成功率高,且对防御具有一定的鲁棒性。

📝 摘要(中文)

大型语言模型(LLM)在具身人工智能的现实决策任务中展现出巨大潜力,尤其是在经过微调以利用其内在常识和推理能力,并针对特定应用进行定制时。然而,这种微调过程引入了相当大的安全漏洞,尤其是在安全关键的网络物理系统中。本文提出了第一个全面的框架,用于针对基于LLM的具身AI决策系统进行后门攻击(BALD),系统地探索了攻击面和触发机制。具体来说,我们提出了三种不同的攻击机制:单词注入、场景操纵和知识注入,针对基于LLM的决策流程中的各个组件。我们在自动驾驶和家庭机器人任务中的代表性LLM(GPT-3.5、LLaMA2、PaLM2)上进行了广泛的实验,证明了我们的后门触发器在各种攻击渠道中的有效性和隐蔽性,例如车辆加速冲向障碍物和机器人将刀放在床上。我们的单词和知识注入攻击在多个模型和数据集上实现了接近100%的成功率,同时只需要对系统进行有限的访问。我们的场景操纵攻击产生了超过65%的成功率,最高达到90%,并且不需要任何运行时系统入侵。我们还评估了这些攻击对防御的鲁棒性,揭示了它们的弹性。我们的研究结果突出了具身LLM系统中的关键安全漏洞,并强调了保护这些系统以减轻潜在风险的迫切需要。

🔬 方法详解

问题定义:论文旨在解决具身AI系统中,基于大型语言模型(LLM)的决策系统存在的安全漏洞问题。现有方法缺乏对LLM微调过程引入的后门攻击的系统性研究,使得这些系统容易受到恶意攻击,尤其是在安全关键场景下,可能导致严重后果。

核心思路:论文的核心思路是通过系统性地探索LLM决策系统的攻击面,设计有效的后门攻击方法,并评估这些攻击的有效性和隐蔽性。通过揭示这些安全漏洞,促使研究人员和开发者更加重视具身LLM系统的安全性,并开发相应的防御机制。

技术框架:BALD框架包含三个主要的攻击模块:1) 单词注入:通过在输入文本中注入特定的触发词,诱导LLM做出预设的错误决策。2) 场景操纵:通过修改环境信息或传感器数据,使LLM对环境产生错误的理解,从而做出错误的决策。3) 知识注入:通过修改LLM的知识库或微调数据,使其学习到错误的知识,从而在特定场景下做出错误的决策。整个攻击流程包括:选择攻击目标、设计触发器、实施攻击和评估效果。

关键创新:论文最重要的技术创新点在于提出了一个全面的后门攻击框架BALD,并系统性地研究了三种不同的攻击机制,这些机制针对LLM决策流程中的不同组件,具有很强的针对性和有效性。与以往的安全研究不同,该论文关注的是具身AI系统中LLM的安全性,并提出了具体的攻击方法和评估指标。

关键设计:在单词注入攻击中,关键在于选择合适的触发词,使其既能触发后门,又不引起用户的怀疑。在场景操纵攻击中,关键在于修改哪些环境信息,以及如何修改才能使LLM产生错误的理解。在知识注入攻击中,关键在于如何修改LLM的知识库或微调数据,使其学习到错误的知识,并且这些知识只在特定场景下生效。论文还设计了相应的评估指标,用于评估攻击的成功率、隐蔽性和鲁棒性。

📊 实验亮点

实验结果表明,单词和知识注入攻击在多个模型和数据集上实现了接近100%的成功率,而场景操纵攻击的成功率也超过65%,最高达到90%。这些攻击方法对防御具有一定的鲁棒性,即使在采取了一些防御措施后,仍然能够成功实施攻击。实验结果充分证明了具身LLM系统存在的严重安全漏洞。

🎯 应用场景

该研究成果可应用于评估和增强各种基于LLM的具身AI系统的安全性,例如自动驾驶汽车、家庭服务机器人、工业自动化系统等。通过了解这些系统的安全漏洞,可以开发更有效的防御机制,防止恶意攻击,保障系统的安全可靠运行。研究结果也为LLM的安全研究提供了新的思路和方向。

📄 摘要(原文)

Large Language Models (LLMs) have shown significant promise in real-world decision-making tasks for embodied artificial intelligence, especially when fine-tuned to leverage their inherent common sense and reasoning abilities while being tailored to specific applications. However, this fine-tuning process introduces considerable safety and security vulnerabilities, especially in safety-critical cyber-physical systems. In this work, we propose the first comprehensive framework for Backdoor Attacks against LLM-based Decision-making systems (BALD) in embodied AI, systematically exploring the attack surfaces and trigger mechanisms. Specifically, we propose three distinct attack mechanisms: word injection, scenario manipulation, and knowledge injection, targeting various components in the LLM-based decision-making pipeline. We perform extensive experiments on representative LLMs (GPT-3.5, LLaMA2, PaLM2) in autonomous driving and home robot tasks, demonstrating the effectiveness and stealthiness of our backdoor triggers across various attack channels, with cases like vehicles accelerating toward obstacles and robots placing knives on beds. Our word and knowledge injection attacks achieve nearly 100% success rate across multiple models and datasets while requiring only limited access to the system. Our scenario manipulation attack yields success rates exceeding 65%, reaching up to 90%, and does not require any runtime system intrusion. We also assess the robustness of these attacks against defenses, revealing their resilience. Our findings highlight critical security vulnerabilities in embodied LLM systems and emphasize the urgent need for safeguarding these systems to mitigate potential risks.