OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences
作者: Ming Wen, Kun Yang, Jingyu Zhang, Yuxuan Liu, shiwen cui, Shouling Ji, Xingjun Ma
分类: cs.AI
发布日期: 2026-03-10
备注: 30 pages
💡 一句话要点
提出OOD-MMSafe基准与CASPO框架,提升MLLM在复杂因果链中的安全推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 安全对齐 因果推理 风险识别 自蒸馏 安全策略优化 OOD检测
📋 核心要点
- 现有MLLM安全对齐主要关注恶意意图,忽略了复杂因果链中潜在的危害,限制了其在自主智能体中的应用。
- 提出OOD-MMSafe基准测试MLLM在上下文因果链中识别潜在风险的能力,并设计CASPO框架提升模型的结果预测能力。
- 实验表明,CASPO框架显著降低了风险识别的失败率,例如Qwen2.5-VL-7B降低到7.3%,Qwen3-VL-4B降低到5.7%。
📝 摘要(中文)
多模态大语言模型(MLLM)的安全对齐已获得广泛关注,但现有方法主要针对恶意意图或情境违规。本文提出将安全边界转移到结果驱动的安全,这对于自主和具身智能体的稳健部署至关重要。为了形式化这种转变,我们引入了OOD-MMSafe基准,包含455个精心设计的查询-图像对,旨在评估模型识别上下文相关因果链中潜在危险的能力。分析表明,前沿模型普遍存在因果盲区,高容量闭源模型的失败率最高,达到67.5%。我们还发现了一个偏好上限,即静态对齐导致以格式为中心的失败,而不是随着模型容量的增长而提高安全推理能力。为了解决这些瓶颈,我们开发了结果感知安全策略优化(CASPO)框架,该框架集成了模型固有的推理能力,作为token级别自蒸馏奖励的动态参考。实验结果表明,CASPO显著增强了结果预测能力,将Qwen2.5-VL-7B的风险识别失败率降低到7.3%,Qwen3-VL-4B降低到5.7%,同时保持了整体有效性。
🔬 方法详解
问题定义:现有MLLM的安全对齐方法主要关注直接的恶意意图或情境违规,缺乏对潜在因果链中隐藏风险的识别能力。这导致模型在复杂环境中,尤其是在自主和具身智能体应用中,可能产生意想不到的负面后果。现有方法难以有效评估和提升模型在复杂因果关系中的安全推理能力。
核心思路:本文的核心思路是将安全对齐的重点从“意图”转移到“后果”。通过构建包含复杂因果链的测试用例,评估模型预测潜在风险的能力。同时,利用模型自身的推理能力,通过自蒸馏的方式,引导模型学习识别和避免潜在的负面后果。这种方法旨在提升模型在复杂环境中的安全推理能力,使其能够更好地应对潜在的风险。
技术框架:整体框架包含两个主要部分:OOD-MMSafe基准和CASPO优化框架。OOD-MMSafe基准用于评估MLLM在复杂因果链中识别潜在风险的能力。CASPO框架则利用模型自身的推理能力,通过自蒸馏的方式,提升模型的结果预测能力。CASPO框架将模型的内在推理作为动态参考,为token级别的自蒸馏奖励提供依据,从而引导模型学习识别和避免潜在的负面后果。
关键创新:主要创新点在于:1) 提出了“后果驱动的安全”这一新的安全对齐范式,将安全关注点从意图转移到后果;2) 构建了OOD-MMSafe基准,用于评估MLLM在复杂因果链中识别潜在风险的能力;3) 提出了CASPO框架,利用模型自身的推理能力,通过自蒸馏的方式,提升模型的结果预测能力。与现有方法相比,CASPO框架能够更有效地提升模型在复杂环境中的安全推理能力。
关键设计:CASPO框架的关键设计包括:1) 使用模型自身的推理作为动态参考,为token级别的自蒸馏奖励提供依据;2) 设计了合适的奖励函数,引导模型学习识别和避免潜在的负面后果;3) 针对不同的模型,调整了自蒸馏的强度和学习率等超参数,以达到最佳的优化效果。具体损失函数和网络结构细节在论文中有更详细的描述,此处不再赘述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CASPO框架能够显著提升MLLM在OOD-MMSafe基准上的性能。例如,使用CASPO优化后,Qwen2.5-VL-7B的风险识别失败率降低到7.3%,Qwen3-VL-4B降低到5.7%。这表明CASPO框架能够有效提升模型在复杂因果链中的安全推理能力,使其能够更好地应对潜在的风险。
🎯 应用场景
该研究成果可应用于提升多模态大语言模型在自主导航、机器人操作、智能家居等领域的安全性。通过增强模型对潜在风险的识别和预测能力,可以有效避免意外事故和不良后果,提高人机交互的可靠性和安全性。未来,该研究方向有望推动安全AI在更广泛领域的应用。
📄 摘要(原文)
While safety alignment for Multimodal Large Language Models (MLLMs) has gained significant attention, current paradigms primarily target malicious intent or situational violations. We propose shifting the safety frontier toward consequence-driven safety, a paradigm essential for the robust deployment of autonomous and embodied agents. To formalize this shift, we introduce OOD-MMSafe, a benchmark comprising 455 curated query-image pairs designed to evaluate a model's ability to identify latent hazards within context-dependent causal chains. Our analysis reveals a pervasive causal blindness among frontier models, with the highest 67.5% failure rate in high-capacity closed-source models, and identifies a preference ceiling where static alignment yields format-centric failures rather than improved safety reasoning as model capacity grows. To address these bottlenecks, we develop the Consequence-Aware Safety Policy Optimization (CASPO) framework, which integrates the model's intrinsic reasoning as a dynamic reference for token-level self-distillation rewards. Experimental results demonstrate that CASPO significantly enhances consequence projection, reducing the failure ratio of risk identification to 7.3% for Qwen2.5-VL-7B and 5.7% for Qwen3-VL-4B while maintaining overall effectiveness.