Alignment Drift in Multimodal LLMs: A Two-Phase, Longitudinal Evaluation of Harm Across Eight Model Releases

📄 arXiv: 2602.04739v1 📥 PDF

作者: Casey Ford, Madison Van Doren, Emily Dix

分类: cs.CL, cs.AI, cs.HC

发布日期: 2026-02-04

备注: under peer-review


💡 一句话要点

纵向评估多模态LLM安全性:揭示八个模型版本中的对齐漂移现象

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态LLM 安全性评估 对抗性提示 对齐漂移 纵向研究

📋 核心要点

  1. 现有MLLM的安全性评估不足,尤其是在对抗性提示下,缺乏长期跟踪模型安全性的方法。
  2. 通过固定基准和专业红队对抗性提示,纵向评估多个MLLM版本,揭示安全性的演变趋势。
  3. 实验发现不同模型家族安全性差异显著,且攻击成功率随模型更新呈现对齐漂移现象。

📝 摘要(中文)

多模态大型语言模型(MLLM)日益广泛地部署在现实系统中,但其在对抗性提示下的安全性仍未得到充分探索。本文对MLLM的无害性进行了两阶段评估,使用由26名专业红队人员设计的726个对抗性提示的固定基准。第一阶段评估了GPT-4o、Claude Sonnet 3.5、Pixtral 12B和Qwen VL Plus;第二阶段评估了它们的后继者(GPT-5、Claude Sonnet 4.5、Pixtral Large和Qwen Omni),产生了82,256个人工危害评级。结果显示,不同模型系列之间存在显著且持久的差异:Pixtral模型始终最脆弱,而Claude模型由于高拒绝率而显得最安全。攻击成功率(ASR)显示出明显的对齐漂移:GPT和Claude模型的ASR随代际增加,而Pixtral和Qwen则略有下降。模态效应也随时间变化:纯文本提示在第一阶段更有效,而第二阶段产生了模型特定的模式,GPT-5和Claude 4.5在不同模态下的脆弱性几乎相同。这些发现表明,MLLM的无害性在更新过程中既不统一也不稳定,强调需要纵向、多模态基准来跟踪不断演变的安全行为。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型(MLLM)在面对对抗性提示时,其安全性随时间推移产生的变化问题,即“对齐漂移”。现有方法缺乏对MLLM安全性的长期、多模态评估,无法有效跟踪模型更新带来的安全风险。

核心思路:论文的核心思路是采用纵向评估的方式,在多个MLLM版本上使用固定的对抗性提示基准进行测试,从而观察模型安全性的演变趋势。通过专业红队设计的对抗性提示,模拟真实世界中的攻击场景,更准确地评估模型的脆弱性。

技术框架:论文采用两阶段评估框架。第一阶段评估了GPT-4o、Claude Sonnet 3.5、Pixtral 12B和Qwen VL Plus。第二阶段评估了它们的后继者GPT-5、Claude Sonnet 4.5、Pixtral Large和Qwen Omni。使用包含726个对抗性提示的固定基准,这些提示由26名专业红队人员设计。通过人工危害评级来评估模型的安全性。

关键创新:论文的关键创新在于其纵向评估方法,能够揭示MLLM在更新迭代过程中出现的“对齐漂移”现象。通过对比不同模型家族和不同模态下的攻击成功率,发现模型安全性的差异和变化趋势。

关键设计:论文的关键设计包括:1) 使用固定的对抗性提示基准,保证评估的一致性;2) 采用人工危害评级,更准确地评估模型的安全性;3) 对比不同模型家族和不同模态下的攻击成功率,分析模型安全性的差异和变化趋势。

📊 实验亮点

实验结果表明,不同模型家族的安全性存在显著差异,Pixtral模型始终最脆弱,而Claude模型由于高拒绝率而显得最安全。GPT和Claude模型的攻击成功率随代际增加,而Pixtral和Qwen则略有下降。文本模态在第一阶段更有效,而第二阶段产生了模型特定的模式,GPT-5和Claude 4.5在不同模态下的脆弱性几乎相同。

🎯 应用场景

该研究成果可应用于MLLM的安全风险评估和模型安全性的持续监控。通过纵向评估,可以及时发现模型更新带来的安全漏洞,指导模型开发者改进安全策略,降低MLLM在实际应用中被恶意利用的风险,例如生成有害内容或执行恶意任务。

📄 摘要(原文)

Multimodal large language models (MLLMs) are increasingly deployed in real-world systems, yet their safety under adversarial prompting remains underexplored. We present a two-phase evaluation of MLLM harmlessness using a fixed benchmark of 726 adversarial prompts authored by 26 professional red teamers. Phase 1 assessed GPT-4o, Claude Sonnet 3.5, Pixtral 12B, and Qwen VL Plus; Phase 2 evaluated their successors (GPT-5, Claude Sonnet 4.5, Pixtral Large, and Qwen Omni) yielding 82,256 human harm ratings. Large, persistent differences emerged across model families: Pixtral models were consistently the most vulnerable, whereas Claude models appeared safest due to high refusal rates. Attack success rates (ASR) showed clear alignment drift: GPT and Claude models exhibited increased ASR across generations, while Pixtral and Qwen showed modest decreases. Modality effects also shifted over time: text-only prompts were more effective in Phase 1, whereas Phase 2 produced model-specific patterns, with GPT-5 and Claude 4.5 showing near-equivalent vulnerability across modalities. These findings demonstrate that MLLM harmlessness is neither uniform nor stable across updates, underscoring the need for longitudinal, multimodal benchmarks to track evolving safety behaviour.