JailWAM: Jailbreaking World Action Models in Robot Control

作者: Hanqing Liu, Songping Wang, Jiahuan Long, Jiacheng Hou, Jialiang Sun, Chao Li, Yang Yang, Wei Peng, Xu Liu, Tingsong Jiang, Wen Yao, Yao Mu

分类: cs.RO

发布日期: 2026-04-07

💡 一句话要点

提出JailWAM框架，用于评估和防御世界行为模型在机器人控制中的越狱攻击。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 世界行为模型 机器人控制 越狱攻击 安全评估 物理仿真

📋 核心要点

现有世界行为模型（WAM）在机器人控制中存在安全漏洞，易受越狱攻击，可能导致人身和财产安全风险。
JailWAM框架通过视觉-轨迹映射、风险判别器和双路径验证策略，实现对WAM的越狱攻击和安全评估。
实验表明，JailWAM能有效暴露WAM的物理漏洞，并在LingBot-VA模型上达到84.2%的攻击成功率，为防御机制构建提供基础。

📝 摘要（中文）

世界行为模型(WAM)能够联合预测未来世界状态和动作，展现出比传统模型更强的物理操作能力。然而，这种强大的物理交互能力是一把双刃剑：如果忽略安全性，将直接威胁人身、财产和环境安全。现有研究极少关注WAM对越狱攻击的脆弱性这一关键安全漏洞。为了填补这一空白，我们定义了三级安全分类框架，以系统地量化机械臂运动的安全性。此外，我们提出了JailWAM，这是第一个专门针对WAM的越狱攻击和评估框架，它由三个核心组件组成：（1）视觉-轨迹映射，将异构动作空间统一为视觉轨迹表示，实现跨架构的统一评估；（2）风险判别器，作为一个高召回率的筛选工具，优化了识别视觉轨迹中破坏性行为时的效率-准确性权衡；（3）双路径验证策略，首先通过基于单图像的视频-动作生成模块进行快速粗筛，然后通过完全闭环物理仿真进行高效全面的验证。此外，我们构建了JailWAM-Bench，一个用于全面评估WAM在越狱攻击下的安全对齐性能的基准。在RoboTwin仿真环境中的实验表明，所提出的框架有效地暴露了物理漏洞，在最先进的LingBot-VA上实现了84.2%的攻击成功率。同时，可以基于JailWAM构建强大的防御机制，为设计安全可靠的机器人控制系统提供有效的技术解决方案。

🔬 方法详解

问题定义：论文旨在解决世界行为模型（WAM）在机器人控制中存在的安全漏洞问题。现有的WAM模型虽然具有强大的物理交互能力，但容易受到恶意设计的越狱攻击，导致机器人执行危险动作，威胁人身安全和财产安全。现有方法缺乏有效的安全评估和防御机制，无法充分保障WAM的安全性。

核心思路：论文的核心思路是通过构建一个专门的越狱攻击和评估框架JailWAM，来系统性地发现WAM的潜在安全漏洞，并为后续的防御机制设计提供指导。JailWAM通过将异构动作空间统一到视觉轨迹表示，并利用风险判别器和双路径验证策略，高效地识别和验证危险行为。

技术框架：JailWAM框架包含三个主要模块：（1）视觉-轨迹映射：将不同WAM模型的动作空间映射到统一的视觉轨迹表示，实现跨架构的统一评估。（2）风险判别器：利用高召回率的风险判别器，快速筛选出潜在的危险行为，优化效率和准确性之间的平衡。（3）双路径验证策略：首先通过单图像视频生成模块进行快速粗筛，然后通过闭环物理仿真进行全面验证，确保准确识别危险行为。此外，论文还构建了JailWAM-Bench基准，用于全面评估WAM的安全对齐性能。

关键创新：JailWAM的关键创新在于其系统性的越狱攻击和评估框架，以及针对WAM特点设计的视觉-轨迹映射和双路径验证策略。与现有方法相比，JailWAM能够更有效地发现WAM的物理漏洞，并提供更全面的安全评估。此外，JailWAM-Bench基准的构建也为后续研究提供了标准化的评估平台。

关键设计：视觉-轨迹映射的具体实现方式（例如，使用何种编码器将动作转换为视觉轨迹），风险判别器的具体网络结构和训练方式（例如，使用何种损失函数和数据集），以及双路径验证策略中单图像视频生成模块和闭环物理仿真的具体实现细节（例如，使用何种仿真引擎和控制算法）是关键设计。论文中可能还涉及一些超参数的设置，例如风险判别器的阈值，以及仿真环境的参数设置。

🖼️ 关键图片

📊 实验亮点

实验结果表明，JailWAM框架能够有效地暴露WAM的物理漏洞，在最先进的LingBot-VA模型上实现了84.2%的攻击成功率。这表明JailWAM具有很强的攻击能力，能够发现现有WAM模型中存在的安全隐患。同时，该研究也为构建更强大的防御机制提供了基础。

🎯 应用场景

该研究成果可应用于各种需要安全可靠机器人控制的领域，例如工业自动化、医疗机器人、家庭服务机器人等。通过JailWAM框架，可以有效评估和防御WAM的越狱攻击，保障机器人在复杂环境中的安全运行，降低潜在的安全风险，提升用户信任度。

📄 摘要（原文）

The World Action Model (WAM) can jointly predict future world states and actions, exhibiting stronger physical manipulation capabilities compared with traditional models. Such powerful physical interaction ability is a double-edged sword: if safety is ignored, it will directly threaten personal safety, property security and environmental safety. However, existing research pays extremely limited attention to the critical security gap: the vulnerability of WAM to jailbreak attacks. To fill this gap, we define the Three-Level Safety Classification Framework to systematically quantify the safety of robotic arm motions. Furthermore, we propose JailWAM, the first dedicated jailbreak attack and evaluation framework for WAM, which consists of three core components: (1) Visual-Trajectory Mapping, which unifies heterogeneous action spaces into visual trajectory representations and enables cross-architectural unified evaluation; (2) Risk Discriminator, which serves as a high-recall screening tool that optimizes the efficiency-accuracy trade-off when identifying destructive behaviors in visual trajectories; (3) Dual-Path Verification Strategy, which first conducts rapid coarse screening via a single-image-based video-action generation module, and then performs efficient and comprehensive verification through full closed-loop physical simulation. In addition, we construct JailWAM-Bench, a benchmark for comprehensively evaluating the safety alignment performance of WAM under jailbreak attacks. Experiments in RoboTwin simulation environment demonstrate that the proposed framework efficiently exposes physical vulnerabilities, achieving an 84.2% attack success rate on the state-of-the-art LingBot-VA. Meanwhile, robust defense mechanisms can be constructed based on JailWAM, providing an effective technical solution for designing safe and reliable robot control systems.

JailWAM: Jailbreaking World Action Models in Robot Control

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理