Trust in LLM-controlled Robotics: a Survey of Security Threats, Defenses and Challenges
作者: Xinyu Huang, Shyam Karthick V B, Taozhao Chen, Mitch Bryson, Thomas Chaffey, Huaming Chen, Kim-Kwang Raymond Choo, Ian R. Manchester
分类: cs.RO
发布日期: 2025-12-17
💡 一句话要点
综述LLM控制机器人中的安全威胁与防御,为安全可靠的机器人系统提供蓝图
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM控制机器人 安全威胁 防御策略 具身智能 攻击向量
📋 核心要点
- 现有LLM安全研究主要集中在文本领域,忽略了LLM控制机器人中,恶意指令可能导致物理危害的独特威胁。
- 本文系统性地总结了LLM控制机器人中面临的各类安全威胁,并对相应的防御策略进行了分析和分类。
- 论文回顾了用于评估具身系统鲁棒性的数据集和基准,强调了开发上下文感知安全解决方案的迫切性。
📝 摘要(中文)
大型语言模型(LLM)集成到机器人技术中,彻底改变了机器人解释复杂人类指令和执行复杂任务的能力。然而,这种范式转变引入了关键的安全漏洞,这些漏洞源于“具身差距”,即LLM的抽象推理与机器人物理的、依赖于上下文的性质之间的不一致。虽然基于文本的LLM的安全性是一个活跃的研究领域,但现有的解决方案通常不足以解决具身机器人代理的独特威胁,在这些威胁中,恶意输出不仅仅表现为有害文本,而是表现为危险的物理动作。本文提出了一项系统的综述,总结了LLM控制机器人技术中新兴的威胁态势和相应的防御策略。具体来说,我们讨论了攻击向量的综合分类,涵盖了诸如越狱、后门攻击和多模态提示注入等主题。作为回应,我们分析并分类了一系列防御机制,从形式安全规范和运行时强制执行到多LLM监督和提示强化。此外,我们回顾了用于评估这些具身系统鲁棒性的关键数据集和基准。通过综合当前的研究,这项工作强调了对上下文感知安全解决方案的迫切需求,并为开发安全、可靠和值得信赖的LLM控制机器人技术提供了基础路线图。
🔬 方法详解
问题定义:论文旨在解决将大型语言模型(LLM)应用于机器人控制时产生的安全问题。现有方法主要关注文本安全,忽略了机器人控制中LLM输出可能直接导致物理世界危害的特殊性。现有方法缺乏对机器人具身环境的考虑,无法有效应对针对LLM控制机器人的新型攻击。
核心思路:论文的核心思路是对LLM控制机器人系统的安全威胁进行全面梳理和分类,并针对这些威胁分析和总结现有的防御策略。通过系统性的分析,为开发更安全、可靠的LLM控制机器人系统提供指导。
技术框架:论文构建了一个针对LLM控制机器人安全威胁和防御的分类框架。该框架包括:1) 对攻击向量的分类,涵盖越狱攻击、后门攻击、多模态提示注入等;2) 对防御机制的分类,包括形式安全规范、运行时强制执行、多LLM监督、提示强化等;3) 对评估数据集和基准的总结。
关键创新:论文最重要的创新在于其对LLM控制机器人安全问题的系统性分析和分类。与以往主要关注文本安全的LLM安全研究不同,本文强调了机器人具身环境带来的独特安全挑战,并针对这些挑战提出了相应的防御策略。
关键设计:论文没有提出新的算法或模型,而是对现有研究进行了梳理和总结。关键设计在于构建了一个全面的分类框架,该框架能够帮助研究人员更好地理解LLM控制机器人安全问题,并为开发更有效的防御机制提供指导。
🖼️ 关键图片
📊 实验亮点
论文系统性地总结了LLM控制机器人中存在的安全威胁,并对现有的防御策略进行了分类和分析。该综述为研究人员提供了一个全面的视角,帮助他们更好地理解LLM控制机器人安全问题,并为开发更有效的防御机制提供指导。论文还强调了上下文感知安全解决方案的重要性,为未来的研究方向提供了参考。
🎯 应用场景
该研究成果可应用于各种LLM控制的机器人系统,例如工业自动化机器人、家庭服务机器人、医疗辅助机器人等。通过提升这些系统的安全性,可以避免因恶意攻击或意外故障造成的物理损害和人身伤害,从而提高机器人技术的可靠性和可信度,加速其在各行业的普及。
📄 摘要(原文)
The integration of Large Language Models (LLMs) into robotics has revolutionized their ability to interpret complex human commands and execute sophisticated tasks. However, such paradigm shift introduces critical security vulnerabilities stemming from the ''embodiment gap'', a discord between the LLM's abstract reasoning and the physical, context-dependent nature of robotics. While security for text-based LLMs is an active area of research, existing solutions are often insufficient to address the unique threats for the embodied robotic agents, where malicious outputs manifest not merely as harmful text but as dangerous physical actions. In this work, we present a systematic survey, summarizing the emerging threat landscape and corresponding defense strategies for LLM-controlled robotics. Specifically, we discuss a comprehensive taxonomy of attack vectors, covering topics such as jailbreaking, backdoor attacks, and multi-modal prompt injection. In response, we analyze and categorize a range of defense mechanisms, from formal safety specifications and runtime enforcement to multi-LLM oversight and prompt hardening. Furthermore, we review key datasets and benchmarks used to evaluate the robustness of these embodied systems. By synthesizing current research, this work highlights the urgent need for context-aware security solutions and provides a foundational roadmap for the development of safe, secure, and reliable LLM-controlled robotics.