Visual Backdoor Attacks on MLLM Embodied Decision Making via Contrastive Trigger Learning
作者: Qiusi Zhan, Hyeonjeong Ha, Rui Yang, Sirui Xu, Hanyang Chen, Liang-Yan Gui, Yu-Xiong Wang, Huan Zhang, Heng Ji, Daniel Kang
分类: cs.AI, cs.CL, cs.CV
发布日期: 2025-10-31
💡 一句话要点
提出BEAT框架,通过对比触发学习实现对MLLM具身智能体的视觉后门攻击
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉后门攻击 多模态大语言模型 具身智能体 对比学习 安全风险
📋 核心要点
- 现有MLLM具身智能体易受视觉后门攻击,攻击者可利用环境对象作为触发器控制智能体行为。
- BEAT框架通过构建多样化训练集和对比触发学习(CTL),提升了后门触发的可靠性和精确性。
- 实验表明,BEAT在多个基准测试中实现了高攻击成功率,同时保持了良好的良性任务性能,且具有泛化能力。
📝 摘要(中文)
多模态大型语言模型(MLLM)通过直接从视觉输入中感知、推理和规划面向任务的动作,从而推动了具身智能体的发展。然而,这种视觉驱动的具身智能体也带来了一种新的攻击面:视觉后门攻击。在这种攻击中,智能体在场景中出现视觉触发器之前表现正常,然后持续执行攻击者指定的多步策略。我们提出了BEAT,这是第一个将这种视觉后门注入到基于MLLM的具身智能体中的框架,它使用环境中的对象作为触发器。与文本触发器不同,对象触发器在视角和光照方面表现出很大的变化,这使得它们难以可靠地植入。BEAT通过以下方式解决了这一挑战:(1)构建一个跨越不同场景、任务和触发器位置的训练集,以使智能体暴露于触发器变化;(2)引入一个两阶段训练方案,首先应用监督微调(SFT),然后应用我们新颖的对比触发学习(CTL)。CTL将触发器判别形式化为触发器存在和不存在输入之间的偏好学习,显式地锐化决策边界,以确保精确的后门激活。在各种具身智能体基准和MLLM上,BEAT实现了高达80%的攻击成功率,同时保持了强大的良性任务性能,并且可靠地推广到分布外的触发器位置。值得注意的是,与朴素的SFT相比,CTL在有限的后门数据下将后门激活准确率提高了高达39%。这些发现揭示了基于MLLM的具身智能体中一个关键但未被探索的安全风险,强调了在实际部署之前需要强大的防御。
🔬 方法详解
问题定义:论文旨在解决MLLM具身智能体中存在的视觉后门攻击问题。现有的MLLM具身智能体容易受到攻击,攻击者可以在环境中植入视觉触发器,当智能体感知到这些触发器时,就会执行攻击者预先设定的恶意行为。现有方法难以应对对象触发器在视角和光照等方面的变化,导致触发效果不稳定。
核心思路:论文的核心思路是通过对比学习来提高智能体对视觉触发器的识别能力。具体来说,通过构建包含触发器存在和不存在的对比样本,并训练智能体区分这些样本,从而增强智能体对触发器的敏感性,并提高后门攻击的成功率。这种方法能够有效地应对对象触发器在视角和光照等方面的变化,提高触发的鲁棒性。
技术框架:BEAT框架包含两个主要阶段:监督微调(SFT)和对比触发学习(CTL)。首先,使用SFT对MLLM进行微调,使其具备基本的任务执行能力。然后,使用CTL进一步训练MLLM,使其能够准确地识别视觉触发器。CTL阶段使用对比损失函数,鼓励智能体区分包含触发器的图像和不包含触发器的图像。整体流程是先让模型学会正常执行任务,再学习识别后门触发器。
关键创新:论文的关键创新在于提出了对比触发学习(CTL)方法。与传统的监督学习方法不同,CTL通过对比学习的方式,显式地锐化了触发器存在和不存在之间的决策边界,从而提高了触发器的识别精度和鲁棒性。此外,论文还构建了一个多样化的训练集,包含了不同场景、任务和触发器位置,从而提高了模型的泛化能力。
关键设计:CTL使用对比损失函数,该损失函数鼓励智能体将包含触发器的图像与不包含触发器的图像区分开来。具体来说,对于每个包含触发器的图像,损失函数会惩罚智能体将其与不包含触发器的图像混淆的行为。此外,论文还使用了hard negative mining技术,选择与包含触发器的图像最相似的不包含触发器的图像作为负样本,从而进一步提高了训练的效率和效果。训练集包含了不同场景、任务和触发器位置,以增加模型的鲁棒性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,BEAT框架在多个具身智能体基准测试中实现了高达80%的攻击成功率,同时保持了良好的良性任务性能。与朴素的SFT相比,CTL在有限的后门数据下将后门激活准确率提高了高达39%。此外,BEAT框架还能够可靠地推广到分布外的触发器位置,表明其具有良好的泛化能力。
🎯 应用场景
该研究揭示了MLLM具身智能体中存在的安全风险,对于开发更安全的智能体系统具有重要意义。该研究成果可应用于机器人、自动驾驶等领域,提高这些系统在恶意攻击下的鲁棒性。未来的研究可以集中在开发更有效的防御机制,以应对视觉后门攻击。
📄 摘要(原文)
Multimodal large language models (MLLMs) have advanced embodied agents by enabling direct perception, reasoning, and planning task-oriented actions from visual inputs. However, such vision driven embodied agents open a new attack surface: visual backdoor attacks, where the agent behaves normally until a visual trigger appears in the scene, then persistently executes an attacker-specified multi-step policy. We introduce BEAT, the first framework to inject such visual backdoors into MLLM-based embodied agents using objects in the environments as triggers. Unlike textual triggers, object triggers exhibit wide variation across viewpoints and lighting, making them difficult to implant reliably. BEAT addresses this challenge by (1) constructing a training set that spans diverse scenes, tasks, and trigger placements to expose agents to trigger variability, and (2) introducing a two-stage training scheme that first applies supervised fine-tuning (SFT) and then our novel Contrastive Trigger Learning (CTL). CTL formulates trigger discrimination as preference learning between trigger-present and trigger-free inputs, explicitly sharpening the decision boundaries to ensure precise backdoor activation. Across various embodied agent benchmarks and MLLMs, BEAT achieves attack success rates up to 80%, while maintaining strong benign task performance, and generalizes reliably to out-of-distribution trigger placements. Notably, compared to naive SFT, CTL boosts backdoor activation accuracy up to 39% under limited backdoor data. These findings expose a critical yet unexplored security risk in MLLM-based embodied agents, underscoring the need for robust defenses before real-world deployment.