Preventing Robotic Jailbreaking via Multimodal Domain Adaptation

📄 arXiv: 2509.23281v1 📥 PDF

作者: Francesco Marchiori, Rohan Sinha, Christopher Agia, Alexander Robey, George J. Pappas, Mauro Conti, Marco Pavone

分类: cs.RO

发布日期: 2025-09-27

备注: Project page: https://j-dapt.github.io/. 9 pages, 6 figures


💡 一句话要点

J-DAPT:多模态领域自适应防御机器人越狱攻击

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人安全 越狱攻击 多模态融合 领域自适应 视觉-语言模型

📋 核心要点

  1. 现有越狱分类器在机器人等安全关键领域泛化能力不足,因为这些领域缺乏专业数据集。
  2. J-DAPT通过融合文本和视觉信息,并进行领域自适应,提升了越狱攻击的检测能力。
  3. 实验结果表明,J-DAPT在多个机器人应用场景中,能以极小的开销将检测精度提升至接近100%。

📝 摘要(中文)

大型语言模型(LLMs)和视觉-语言模型(VLMs)越来越多地部署在机器人环境中,但仍然容易受到越狱攻击,这些攻击绕过安全机制,并在现实世界中驱动不安全或物理上有害的行为。诸如越狱分类器之类的数据驱动防御方法显示出希望,但它们难以在专业数据集稀缺的领域中泛化,从而限制了它们在机器人和其他安全关键环境中的有效性。为了解决这个差距,我们引入了J-DAPT,这是一个轻量级框架,通过基于注意力的融合和领域自适应进行多模态越狱检测。J-DAPT集成了文本和视觉嵌入,以捕获语义意图和环境基础,同时将通用越狱数据集与特定领域的参考数据对齐。在自动驾驶、海上机器人和四足导航方面的评估表明,J-DAPT以最小的开销将检测精度提高到接近100%。这些结果表明,J-DAPT为保护机器人应用中的VLM提供了一种实用的防御。

🔬 方法详解

问题定义:论文旨在解决机器人应用中,视觉-语言模型(VLM)容易遭受越狱攻击的问题。现有的越狱检测方法,尤其是基于数据驱动的分类器,在通用数据集上训练后,难以泛化到机器人等特定领域,因为这些领域的数据集通常稀缺,分布差异大。

核心思路:论文的核心思路是利用多模态信息融合和领域自适应技术,将通用越狱数据集的知识迁移到特定机器人领域。通过结合文本和视觉信息,模型可以更好地理解用户的意图和环境的上下文,从而更准确地检测越狱攻击。领域自适应则用于减小通用数据集和特定领域数据之间的分布差异,提高模型的泛化能力。

技术框架:J-DAPT框架包含以下主要模块:1) 文本嵌入模块,用于提取文本输入的语义特征;2) 视觉嵌入模块,用于提取视觉输入的特征;3) 注意力融合模块,用于将文本和视觉特征进行融合,捕捉它们之间的关联;4) 领域自适应模块,用于对齐通用数据集和特定领域数据的特征分布;5) 越狱分类器,用于判断输入是否为越狱攻击。整体流程是:首先,文本和视觉输入分别通过嵌入模块提取特征;然后,注意力融合模块将这些特征融合;接着,领域自适应模块对齐特征分布;最后,越狱分类器输出检测结果。

关键创新:J-DAPT的关键创新在于多模态融合和领域自适应的结合。与仅使用文本信息的越狱检测方法相比,J-DAPT利用视觉信息增强了对用户意图和环境上下文的理解。与直接在特定领域数据上训练模型相比,J-DAPT通过领域自适应,利用了通用数据集的知识,提高了模型的泛化能力。

关键设计:论文使用了预训练的文本和视觉嵌入模型,例如BERT和ResNet,以提取高质量的特征。注意力融合模块使用了Transformer架构,以捕捉文本和视觉特征之间的复杂关系。领域自适应模块使用了对抗训练的方法,通过一个判别器来区分通用数据集和特定领域数据的特征,并训练嵌入模块来混淆判别器,从而实现特征对齐。损失函数包括越狱分类损失和领域对抗损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

J-DAPT在自动驾驶、海上机器人和四足导航等多个机器人应用场景中进行了评估。实验结果表明,J-DAPT能够以极小的计算开销,将越狱攻击的检测精度提升至接近100%。这表明J-DAPT是一种实用且有效的防御方法,可以显著提高机器人系统的安全性。

🎯 应用场景

J-DAPT可应用于各种机器人应用场景,例如自动驾驶、海上机器人、四足机器人导航等。通过防止恶意用户利用越狱攻击控制机器人,可以提高机器人的安全性,避免造成人身伤害或财产损失。该研究对于推动安全可靠的机器人技术发展具有重要意义。

📄 摘要(原文)

Large Language Models (LLMs) and Vision-Language Models (VLMs) are increasingly deployed in robotic environments but remain vulnerable to jailbreaking attacks that bypass safety mechanisms and drive unsafe or physically harmful behaviors in the real world. Data-driven defenses such as jailbreak classifiers show promise, yet they struggle to generalize in domains where specialized datasets are scarce, limiting their effectiveness in robotics and other safety-critical contexts. To address this gap, we introduce J-DAPT, a lightweight framework for multimodal jailbreak detection through attention-based fusion and domain adaptation. J-DAPT integrates textual and visual embeddings to capture both semantic intent and environmental grounding, while aligning general-purpose jailbreak datasets with domain-specific reference data. Evaluations across autonomous driving, maritime robotics, and quadruped navigation show that J-DAPT boosts detection accuracy to nearly 100% with minimal overhead. These results demonstrate that J-DAPT provides a practical defense for securing VLMs in robotic applications. Additional materials are made available at: https://j-dapt.github.io.