RO-Bench: Large-scale robustness evaluation of MLLMs with text-driven counterfactual videos

📄 arXiv: 2510.08936v1 📥 PDF

作者: Zixi Yang, Jiapeng Li, Muxi Diao, Yinuo Jing, Kongming Liang

分类: cs.CV, cs.AI

发布日期: 2025-10-10


💡 一句话要点

提出RO-Bench,用于大规模评估MLLM在文本驱动对抗视频上的鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视频理解 鲁棒性评估 对抗视频 文本驱动生成

📋 核心要点

  1. 现有MLLM在视频理解任务中表现出色,但面对对抗性攻击或内容篡改时,鲁棒性不足。
  2. 提出Ro-Bench基准,通过文本驱动的方式生成对抗视频,用于评估MLLM的鲁棒性。
  3. 实验表明,现有MLLM在Ro-Bench上性能显著下降,使用对抗数据微调后性能提升显著。

📝 摘要(中文)

多模态大型语言模型(MLLM)最近在各种视频理解任务中表现出显著的性能。然而,它们的鲁棒性,特别是在面对被篡改的视频内容时,在很大程度上仍未被探索。本文提出了Ro-Bench,这是第一个用于评估MLLM在动态分布外(OOD)对抗视频测试集上的基准。Ro-Bench通过编辑风格、对象、背景及其组合,整合了高质量、多样化和时间相关的视频数据。我们评估了八个最新的视频MLLM,发现当前的模型在Ro-Bench上暴露于对抗视频内容时表现出显著的性能下降。此外,我们证明了使用对抗数据微调MLLM可以增强鲁棒性,在Ro-Bench上实现了21.73%的性能提升,在MVBench数据集的20个任务中实现了12.78%的提升。这些发现强调了对抗数据在增强MLLM的视频理解能力方面的有效性。代码和数据将很快发布。

🔬 方法详解

问题定义:现有MLLM在处理真实视频数据时表现良好,但在面对对抗性攻击或内容篡改的视频时,性能会显著下降。这表明现有模型缺乏对分布外数据的鲁棒性。现有方法缺乏一个专门用于评估MLLM在对抗视频上的鲁棒性的基准。

核心思路:通过文本驱动的方式生成对抗视频,模拟真实世界中可能出现的各种视频篡改情况。利用这些对抗视频构建一个具有挑战性的测试集,用于评估MLLM的鲁棒性。通过对抗训练,提高MLLM对这些篡改视频的识别能力。

技术框架:Ro-Bench基准包含以下几个关键组成部分:1) 原始视频数据集;2) 文本描述,用于指导对抗视频的生成;3) 对抗视频生成模块,通过编辑风格、对象、背景及其组合来生成对抗视频;4) 评估指标,用于衡量MLLM在对抗视频上的性能。整体流程是:首先,使用文本描述指导对抗视频生成模块生成对抗视频。然后,将原始视频和对抗视频输入到MLLM中进行测试。最后,使用评估指标衡量MLLM在对抗视频上的性能。

关键创新:Ro-Bench是第一个专门用于评估MLLM在对抗视频上的鲁棒性的基准。它通过文本驱动的方式生成对抗视频,可以模拟真实世界中可能出现的各种视频篡改情况。此外,该研究还证明了使用对抗数据微调MLLM可以显著提高其鲁棒性。

关键设计:对抗视频生成模块使用了多种编辑技术,包括风格迁移、对象替换、背景替换等。这些技术可以有效地改变视频的内容和风格,从而生成具有挑战性的对抗视频。研究中使用了多种评估指标,包括准确率、召回率、F1值等,用于全面评估MLLM在对抗视频上的性能。对抗训练过程中,使用了交叉熵损失函数和Adam优化器。

📊 实验亮点

实验结果表明,现有MLLM在Ro-Bench上表现出显著的性能下降。例如,在某些任务上,准确率下降了超过50%。通过使用对抗数据微调MLLM,可以在Ro-Bench上实现21.73%的性能提升,在MVBench数据集的20个任务中实现12.78%的提升。这表明对抗训练可以有效地提高MLLM的鲁棒性。

🎯 应用场景

该研究成果可应用于视频监控、自动驾驶、内容审核等领域。通过提高MLLM在对抗视频上的鲁棒性,可以增强这些系统在复杂环境下的可靠性和安全性。此外,该研究还可以促进对抗攻击和防御技术的发展,推动多模态机器学习领域的进步。

📄 摘要(原文)

Recently, Multi-modal Large Language Models (MLLMs) have demonstrated significant performance across various video understanding tasks. However, their robustness, particularly when faced with manipulated video content, remains largely unexplored. In this paper, we introduce Ro-Bench, the first benchmark for evaluating MLLMs on dynamic out-of-distribution (OOD) counterfactual video test sets. Ro-Bench incorporates high-quality, diverse and temporally relevant video data, by editing Style, Object, Background and their compositions. We evaluated eight recent video MLLMs and found that current models exhibit substantial performance degradation on Ro-Bench when exposed to counterfactual video content. Furthermore, we demonstrate that fine-tuning MLLMs with counterfactual data enhances robustness, achieving a 21.73% performance increase on Ro-Bench and a 12.78% improvement across 20 tasks in the MVBench dataset. These findings underscore the effectiveness of counterfactual data in enhancing the video understanding ability of MLLMs. The code and data will be released shortly.