Preventing Robotic Jailbreaking via Multimodal Domain Adaptation

📄 arXiv: 2509.23281v1 📥 PDF

作者: Francesco Marchiori, Rohan Sinha, Christopher Agia, Alexander Robey, George J. Pappas, Mauro Conti, Marco Pavone

分类: cs.RO

发布日期: 2025-09-27

备注: Project page: https://j-dapt.github.io/. 9 pages, 6 figures


💡 一句话要点

提出J-DAPT框架,通过多模态领域自适应防御机器人越狱攻击

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人安全 越狱攻击 多模态融合 领域自适应 视觉-语言模型

📋 核心要点

  1. 现有越狱分类器在机器人等安全关键领域泛化性差,因为这些领域缺乏专业数据集。
  2. J-DAPT通过融合文本和视觉信息,并进行领域自适应,提升越狱检测的准确性。
  3. 实验表明,J-DAPT在自动驾驶、海上机器人和四足导航等任务中,检测精度接近100%。

📝 摘要(中文)

大型语言模型(LLMs)和视觉-语言模型(VLMs)越来越多地部署在机器人环境中,但仍然容易受到越狱攻击,这些攻击绕过安全机制,并在现实世界中驱动不安全或物理上有害的行为。诸如越狱分类器之类的数据驱动防御方法显示出希望,但它们难以在专业数据集稀缺的领域中推广,从而限制了它们在机器人和其他安全关键环境中的有效性。为了解决这个差距,我们引入了J-DAPT,这是一个轻量级框架,通过基于注意力的融合和领域自适应进行多模态越狱检测。J-DAPT集成了文本和视觉嵌入,以捕获语义意图和环境基础,同时将通用越狱数据集与特定领域的参考数据对齐。在自动驾驶、海上机器人和四足导航中的评估表明,J-DAPT以最小的开销将检测精度提高到接近100%。这些结果表明,J-DAPT为保护机器人应用中的VLM提供了一种实用的防御。

🔬 方法详解

问题定义:论文旨在解决机器人环境中,视觉-语言模型(VLM)易受越狱攻击的问题。现有的越狱检测方法,尤其是基于数据驱动的分类器,在通用数据集上训练后,难以泛化到机器人等特定领域,因为这些领域的数据集往往稀缺,分布差异大。这使得机器人系统容易受到恶意指令的攻击,导致不安全甚至有害的行为。

核心思路:论文的核心思路是利用多模态信息融合和领域自适应技术,将通用的越狱数据集的知识迁移到特定领域的机器人任务中。通过结合文本指令的语义信息和视觉环境的感知信息,可以更准确地判断指令是否为越狱攻击。领域自适应则用于减小通用数据集和特定领域数据之间的分布差异,提高模型的泛化能力。这样设计的目的是为了在数据稀缺的情况下,也能有效地防御机器人系统的越狱攻击。

技术框架:J-DAPT框架主要包含以下几个模块:1) 文本嵌入模块:使用预训练的语言模型(如BERT)将文本指令转换为语义向量表示。2) 视觉嵌入模块:使用预训练的视觉模型(如ResNet)将视觉环境信息转换为视觉向量表示。3) 注意力融合模块:使用注意力机制将文本和视觉嵌入进行融合,学习不同模态之间的关联性。4) 领域自适应模块:使用对抗训练或最大均值差异(MMD)等方法,将通用数据集和特定领域数据的特征分布对齐。5) 越狱分类器:使用融合后的特征向量,训练一个二分类器,判断指令是否为越狱攻击。

关键创新:J-DAPT的关键创新在于多模态融合和领域自适应的结合。传统的越狱检测方法通常只关注文本信息,忽略了视觉环境的重要性。J-DAPT通过融合文本和视觉信息,可以更全面地理解指令的意图。此外,J-DAPT还利用领域自适应技术,解决了通用数据集和特定领域数据之间的分布差异问题,提高了模型的泛化能力。这与现有方法只关注单一模态信息或忽略领域差异有本质区别。

关键设计:在文本嵌入模块中,可以使用预训练的BERT模型,并进行微调以适应越狱攻击的检测任务。在视觉嵌入模块中,可以使用预训练的ResNet模型,并提取中间层的特征向量。在注意力融合模块中,可以使用多头注意力机制,学习不同模态之间的关联性。在领域自适应模块中,可以使用对抗训练,通过一个判别器来区分通用数据集和特定领域数据,并训练一个生成器来混淆判别器。损失函数可以包括越狱分类损失、领域判别损失和注意力正则化损失。

📊 实验亮点

实验结果表明,J-DAPT在自动驾驶、海上机器人和四足导航等任务中,越狱检测精度接近100%,显著优于传统的单模态方法。该框架在提升检测精度的同时,保持了较低的计算开销,使其能够部署在资源受限的机器人平台上。

🎯 应用场景

J-DAPT可应用于各种机器人系统,如自动驾驶汽车、无人船、四足机器人等,以防御恶意攻击,确保系统安全运行。该研究成果对于提升机器人系统的安全性、可靠性和鲁棒性具有重要意义,并为未来机器人安全领域的研究提供了新的思路。

📄 摘要(原文)

Large Language Models (LLMs) and Vision-Language Models (VLMs) are increasingly deployed in robotic environments but remain vulnerable to jailbreaking attacks that bypass safety mechanisms and drive unsafe or physically harmful behaviors in the real world. Data-driven defenses such as jailbreak classifiers show promise, yet they struggle to generalize in domains where specialized datasets are scarce, limiting their effectiveness in robotics and other safety-critical contexts. To address this gap, we introduce J-DAPT, a lightweight framework for multimodal jailbreak detection through attention-based fusion and domain adaptation. J-DAPT integrates textual and visual embeddings to capture both semantic intent and environmental grounding, while aligning general-purpose jailbreak datasets with domain-specific reference data. Evaluations across autonomous driving, maritime robotics, and quadruped navigation show that J-DAPT boosts detection accuracy to nearly 100% with minimal overhead. These results demonstrate that J-DAPT provides a practical defense for securing VLMs in robotic applications. Additional materials are made available at: https://j-dapt.github.io.