From Prompt to Physical Action: Structured Backdoor Attacks on LLM-Mediated Robotic Control Systems
作者: Mingyang Xie, Jin Wei-Kocsis
分类: cs.RO
发布日期: 2026-04-07
💡 一句话要点
揭示LLM机器人控制系统结构性后门攻击漏洞,提出防御方案与安全-响应权衡分析
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM 机器人控制 后门攻击 安全漏洞 具身AI
📋 核心要点
- 现有基于LLM的机器人控制系统缺乏对供应链后门攻击的有效防御,存在安全隐患。
- 论文提出针对LLM机器人控制系统的结构化后门攻击方法,并分析了不同阶段后门攻击的有效性。
- 实验表明,直接针对JSON命令格式的后门攻击更有效,并提出基于LLM的防御方案,但存在安全-响应权衡。
📝 摘要(中文)
本文研究了基于大型语言模型(LLM)的机器人控制系统中,通过微调嵌入的结构化后门攻击。实验评估了基于LoRA的供应链后门对LLM驱动的ROS2机器人控制系统的影响。构建了两种针对命令生成流程不同阶段的恶意微调策略,揭示了一个关键的系统级洞察:嵌入在自然语言推理阶段的后门不能可靠地传播到可执行的控制输出,而与结构化JSON命令格式直接对齐的后门能够成功地通过转换并触发物理动作。在模拟和真实世界的实验中,植入后门的模型实现了平均83%的攻击成功率,同时保持超过93%的清洁性能准确率(CPA)和亚秒级延迟,展示了可靠性和隐蔽性。进一步使用辅助LLM进行语义一致性检查,实现了一种agentic验证防御。虽然这降低了攻击成功率(ASR)到20%,但将端到端延迟增加到8-9秒,暴露了实时机器人系统中显著的安全-响应权衡。这些结果突出了LLM驱动的机器人控制架构中的结构性漏洞,并强调了对具身AI系统进行机器人感知防御的必要性。
🔬 方法详解
问题定义:论文旨在研究在基于大型语言模型(LLM)的机器人控制系统中,由于LLM的引入而产生的新的安全漏洞,特别是供应链后门攻击。现有的机器人控制系统安全研究较少关注LLM带来的新型攻击面,而LLM的广泛应用使得攻击者可以通过恶意微调LLM来控制机器人的行为,从而造成潜在的物理损害。
核心思路:论文的核心思路是通过在LLM的微调过程中引入恶意数据,植入后门,使得在特定触发条件下,LLM会生成攻击者预设的恶意控制指令,从而控制机器人执行非预期行为。论文重点研究了两种后门植入策略,并分析了它们在不同阶段的有效性。同时,论文还探索了一种基于辅助LLM的防御机制,以检测和阻止恶意指令的执行。
技术框架:整体框架包含以下几个主要模块:1) LLM微调:使用包含恶意数据的微调数据集对LLM进行微调,植入后门。2) 命令生成:用户输入自然语言指令,LLM将其转换为结构化的JSON命令。3) 机器人控制:机器人接收JSON命令并执行相应的动作。4) 防御机制:使用辅助LLM对生成的JSON命令进行语义一致性检查,判断是否存在恶意行为。
关键创新:论文的关键创新在于:1) 首次系统性地研究了LLM在机器人控制系统中引入的结构化后门攻击漏洞。2) 揭示了后门植入位置对攻击成功率的影响,发现直接针对JSON命令格式的后门攻击更有效。3) 提出了一种基于辅助LLM的防御机制,并分析了其安全性和响应性之间的权衡。
关键设计:论文中,恶意微调数据集的设计是关键。针对自然语言推理阶段的后门,恶意数据包含特定的触发词和对应的恶意行为描述。针对JSON命令格式的后门,恶意数据直接包含特定的触发词和对应的恶意JSON命令。防御机制中,辅助LLM被用于评估原始LLM生成的JSON命令与用户输入的自然语言指令之间的语义一致性。如果一致性低于阈值,则认为存在恶意行为,并阻止该命令的执行。
🖼️ 关键图片
📊 实验亮点
实验结果表明,直接针对JSON命令格式的后门攻击能够达到平均83%的攻击成功率,同时保持超过93%的清洁性能准确率和亚秒级延迟。使用辅助LLM进行防御可以将攻击成功率降低到20%,但会增加端到端延迟到8-9秒,揭示了安全性和响应性之间的显著权衡。
🎯 应用场景
该研究成果可应用于提高LLM驱动的机器人控制系统的安全性,例如智能家居、自动驾驶、工业自动化等领域。通过分析和防御LLM后门攻击,可以有效防止恶意攻击者利用LLM控制机器人,造成财产损失甚至人身伤害。研究结果也为开发更安全的具身AI系统提供了指导。
📄 摘要(原文)
The integration of large language models (LLMs) into robotic control pipelines enables natural language interfaces that translate user prompts into executable commands. However, this digital-to-physical interface introduces a critical and underexplored vulnerability: structured backdoor attacks embedded during fine-tuning. In this work, we experimentally investigate LoRA-based supply-chain backdoors in LLM-mediated ROS2 robotic control systems and evaluate their impact on physical robot execution. We construct two poisoned fine-tuning strategies targeting different stages of the command generation pipeline and reveal a key systems-level insight: back-doors embedded at the natural-language reasoning stage do not reliably propagate to executable control outputs, whereas backdoors aligned directly with structured JSON command formats successfully survive translation and trigger physical actions. In both simulation and real-world experiments, backdoored models achieve an average Attack Success Rate of 83% while maintaining over 93% Clean Performance Accuracy (CPA) and sub-second latency, demonstrating both reliability and stealth. We further implement an agentic verification defense using a secondary LLM for semantic consistency checking. Although this reduces the Attack Success Rate (ASR) to 20%, it increases end-to-end latency to 8-9 seconds, exposing a significant security-responsiveness trade-off in real-time robotic systems. These results highlight structural vulnerabilities in LLM-mediated robotic control architectures and underscore the need for robotics-aware defenses for embodied AI systems.