Alignment Drift in Multimodal LLMs: A Two-Phase, Longitudinal Evaluation of Harm Across Eight Model Releases

作者: Casey Ford, Madison Van Doren, Emily Dix

分类: cs.CL, cs.AI, cs.HC

发布日期: 2026-02-04

备注: under peer-review

💡 一句话要点

纵向评估多模态LLM安全性：揭示八个模型版本中的对齐漂移现象

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态LLM 安全性评估 对抗性提示 对齐漂移 纵向研究

📋 核心要点

现有MLLM的安全性评估不足，尤其是在对抗性提示下，缺乏长期跟踪模型安全性的方法。
通过固定基准和专业红队对抗性提示，纵向评估多个MLLM版本，揭示安全性的演变趋势。
实验发现不同模型家族安全性差异显著，且攻击成功率随模型更新呈现对齐漂移现象。

📝 摘要（中文）

多模态大型语言模型(MLLM)日益广泛地部署在现实系统中，但其在对抗性提示下的安全性仍未得到充分探索。本文对MLLM的无害性进行了两阶段评估，使用由26名专业红队人员设计的726个对抗性提示的固定基准。第一阶段评估了GPT-4o、Claude Sonnet 3.5、Pixtral 12B和Qwen VL Plus；第二阶段评估了它们的后继者（GPT-5、Claude Sonnet 4.5、Pixtral Large和Qwen Omni），产生了82,256个人工危害评级。结果显示，不同模型系列之间存在显著且持久的差异：Pixtral模型始终最脆弱，而Claude模型由于高拒绝率而显得最安全。攻击成功率(ASR)显示出明显的对齐漂移：GPT和Claude模型的ASR随代际增加，而Pixtral和Qwen则略有下降。模态效应也随时间变化：纯文本提示在第一阶段更有效，而第二阶段产生了模型特定的模式，GPT-5和Claude 4.5在不同模态下的脆弱性几乎相同。这些发现表明，MLLM的无害性在更新过程中既不统一也不稳定，强调需要纵向、多模态基准来跟踪不断演变的安全行为。

🔬 方法详解

问题定义：论文旨在解决多模态大型语言模型（MLLM）在面对对抗性提示时，其安全性随时间推移产生的变化问题，即“对齐漂移”。现有方法缺乏对MLLM安全性的长期、多模态评估，无法有效跟踪模型更新带来的安全风险。

核心思路：论文的核心思路是采用纵向评估的方式，在多个MLLM版本上使用固定的对抗性提示基准进行测试，从而观察模型安全性的演变趋势。通过专业红队设计的对抗性提示，模拟真实世界中的攻击场景，更准确地评估模型的脆弱性。

技术框架：论文采用两阶段评估框架。第一阶段评估了GPT-4o、Claude Sonnet 3.5、Pixtral 12B和Qwen VL Plus。第二阶段评估了它们的后继者GPT-5、Claude Sonnet 4.5、Pixtral Large和Qwen Omni。使用包含726个对抗性提示的固定基准，这些提示由26名专业红队人员设计。通过人工危害评级来评估模型的安全性。

关键创新：论文的关键创新在于其纵向评估方法，能够揭示MLLM在更新迭代过程中出现的“对齐漂移”现象。通过对比不同模型家族和不同模态下的攻击成功率，发现模型安全性的差异和变化趋势。

关键设计：论文的关键设计包括：1) 使用固定的对抗性提示基准，保证评估的一致性；2) 采用人工危害评级，更准确地评估模型的安全性；3) 对比不同模型家族和不同模态下的攻击成功率，分析模型安全性的差异和变化趋势。

📊 实验亮点

实验结果表明，不同模型家族的安全性存在显著差异，Pixtral模型始终最脆弱，而Claude模型由于高拒绝率而显得最安全。GPT和Claude模型的攻击成功率随代际增加，而Pixtral和Qwen则略有下降。文本模态在第一阶段更有效，而第二阶段产生了模型特定的模式，GPT-5和Claude 4.5在不同模态下的脆弱性几乎相同。

🎯 应用场景

该研究成果可应用于MLLM的安全风险评估和模型安全性的持续监控。通过纵向评估，可以及时发现模型更新带来的安全漏洞，指导模型开发者改进安全策略，降低MLLM在实际应用中被恶意利用的风险，例如生成有害内容或执行恶意任务。

📄 摘要（原文）

Multimodal large language models (MLLMs) are increasingly deployed in real-world systems, yet their safety under adversarial prompting remains underexplored. We present a two-phase evaluation of MLLM harmlessness using a fixed benchmark of 726 adversarial prompts authored by 26 professional red teamers. Phase 1 assessed GPT-4o, Claude Sonnet 3.5, Pixtral 12B, and Qwen VL Plus; Phase 2 evaluated their successors (GPT-5, Claude Sonnet 4.5, Pixtral Large, and Qwen Omni) yielding 82,256 human harm ratings. Large, persistent differences emerged across model families: Pixtral models were consistently the most vulnerable, whereas Claude models appeared safest due to high refusal rates. Attack success rates (ASR) showed clear alignment drift: GPT and Claude models exhibited increased ASR across generations, while Pixtral and Qwen showed modest decreases. Modality effects also shifted over time: text-only prompts were more effective in Phase 1, whereas Phase 2 produced model-specific patterns, with GPT-5 and Claude 4.5 showing near-equivalent vulnerability across modalities. These findings demonstrate that MLLM harmlessness is neither uniform nor stable across updates, underscoring the need for longitudinal, multimodal benchmarks to track evolving safety behaviour.

Alignment Drift in Multimodal LLMs: A Two-Phase, Longitudinal Evaluation of Harm Across Eight Model Releases

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理