CHAI: Command Hijacking against embodied AI
作者: Luis Burbano, Diego Ortiz, Qi Sun, Siwei Yang, Haoqin Tu, Cihang Xie, Yinzhi Cao, Alvaro A Cardenas
分类: cs.CR, cs.AI, cs.LG
发布日期: 2025-09-30
💡 一句话要点
CHAI:针对具身AI的命令劫持攻击方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身AI 命令劫持 视觉语言模型 对抗攻击 安全漏洞
📋 核心要点
- 现有具身AI系统易受利用多模态语言理解能力的攻击,传统防御方法难以有效应对。
- CHAI通过在视觉输入中嵌入欺骗性指令,系统搜索token空间,生成视觉攻击提示,实现命令劫持。
- 实验表明,CHAI在无人机、自动驾驶等多种具身AI任务中,攻击效果优于现有技术,凸显安全风险。
📝 摘要(中文)
具身人工智能(AI)有望通过利用基于感知和行动的常识推理来处理机器人车辆系统中数据稀缺的边缘情况,从而推广到训练分布之外并适应新的现实世界情况。然而,这些能力也带来了新的安全风险。本文介绍了一种新的基于提示的攻击——CHAI(针对具身AI的命令劫持),它利用大型视觉语言模型(LVLM)的多模态语言解释能力。CHAI将欺骗性的自然语言指令(例如误导性标志)嵌入到视觉输入中,系统地搜索token空间,构建提示字典,并引导攻击者模型生成视觉攻击提示。我们在四种LVLM智能体上评估了CHAI:无人机紧急着陆、自动驾驶和空中物体跟踪,以及一个真实的机器人车辆。实验表明,CHAI始终优于最先进的攻击。通过利用下一代具身AI系统的语义和多模态推理优势,CHAI强调了对超越传统对抗鲁棒性的防御措施的迫切需求。
🔬 方法详解
问题定义:论文旨在解决具身AI系统在面对恶意设计的视觉输入时,容易被欺骗并执行错误指令的问题。现有方法主要关注对抗样本的像素级扰动,忽略了利用自然语言指令进行攻击的可能性,导致具身AI系统在复杂环境下的安全性不足。
核心思路:论文的核心思路是利用大型视觉语言模型(LVLM)对自然语言指令的理解能力,通过在视觉场景中嵌入精心设计的、具有欺骗性的自然语言提示,诱导具身AI系统执行攻击者期望的错误行为。这种攻击方式模拟了现实世界中可能存在的恶意标志或指示牌,更具隐蔽性和实用性。
技术框架:CHAI攻击框架主要包含以下几个阶段:1) 提示生成:利用攻击者模型,在token空间中搜索能够有效欺骗LVLM的自然语言提示。2) 视觉嵌入:将生成的提示以视觉形式嵌入到输入图像中,例如将文字绘制在图像的某个区域。3) 攻击执行:将嵌入了提示的图像输入到具身AI系统中,观察其行为是否符合攻击者的预期。4) 反馈优化:根据具身AI系统的行为反馈,迭代优化提示生成过程,提高攻击成功率。
关键创新:CHAI的关键创新在于其利用了LVLM的语义理解能力,将自然语言指令作为攻击媒介,突破了传统对抗样本攻击的局限性。与传统的像素级扰动攻击相比,CHAI攻击更具隐蔽性和可解释性,能够更好地模拟现实世界中的攻击场景。此外,CHAI还提出了一种系统化的提示搜索方法,能够有效地生成具有欺骗性的视觉攻击提示。
关键设计:CHAI在提示生成阶段,采用了基于梯度优化的方法,通过最大化攻击目标(例如,使无人机偏离预定航线)的损失函数,来搜索最优的自然语言提示。此外,论文还设计了一种提示字典,用于存储和复用有效的提示,从而提高攻击效率。在视觉嵌入阶段,论文考虑了文字的大小、位置、颜色等因素,以确保提示能够被LVLM正确识别,同时又不会引起人类的注意。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CHAI攻击在无人机紧急着陆、自动驾驶和空中物体跟踪等任务中,均能有效欺骗LVLM智能体,使其执行错误指令。例如,在无人机紧急着陆任务中,CHAI攻击能够使无人机偏离预定着陆点,甚至坠毁。与现有攻击方法相比,CHAI攻击的成功率更高,且更具隐蔽性。
🎯 应用场景
该研究成果可应用于评估和提升具身AI系统的安全性,尤其是在自动驾驶、无人机导航、机器人辅助等领域。通过模拟恶意攻击,可以发现系统潜在的安全漏洞,并开发相应的防御机制,从而提高系统的鲁棒性和可靠性,避免因恶意攻击造成的财产损失甚至人身伤害。
📄 摘要(原文)
Embodied Artificial Intelligence (AI) promises to handle edge cases in robotic vehicle systems where data is scarce by using common-sense reasoning grounded in perception and action to generalize beyond training distributions and adapt to novel real-world situations. These capabilities, however, also create new security risks. In this paper, we introduce CHAI (Command Hijacking against embodied AI), a new class of prompt-based attacks that exploit the multimodal language interpretation abilities of Large Visual-Language Models (LVLMs). CHAI embeds deceptive natural language instructions, such as misleading signs, in visual input, systematically searches the token space, builds a dictionary of prompts, and guides an attacker model to generate Visual Attack Prompts. We evaluate CHAI on four LVLM agents; drone emergency landing, autonomous driving, and aerial object tracking, and on a real robotic vehicle. Our experiments show that CHAI consistently outperforms state-of-the-art attacks. By exploiting the semantic and multimodal reasoning strengths of next-generation embodied AI systems, CHAI underscores the urgent need for defenses that extend beyond traditional adversarial robustness.