Pop-Up Distractions Reveal Bag-of-Events Behavior in Video Large Language Models

📄 arXiv: 2605.27101v1 📥 PDF

作者: Oscar Chew, Serhii Honcharenko, Qian-Hui Chen, Patricia Lu, Dishant Zaveri, Khoa D. Doan, Kuan-Hao Huang

分类: cs.CV, cs.CL

发布日期: 2026-05-26


💡 一句话要点

DistractionBench揭示视频大语言模型在时序理解中存在“事件袋”行为

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频大语言模型 时序理解 事件袋行为 视频理解 长视频分析

📋 核心要点

  1. 现有VideoLLM在长时序视频理解中,难以准确关联主体和事件,缺乏对时间结构的有效建模。
  2. 论文提出DistractionBench基准,通过插入干扰片段评估模型在复杂场景下的主体-事件关联能力。
  3. 实验表明,现有VideoLLM普遍存在“事件袋”行为,会将不同片段的事件错误关联,缺乏时序理解能力。

📝 摘要(中文)

视频理解的关键能力在于可靠地将主体与事件在时间上联系起来,但视频大语言模型(VideoLLM)是否真正实现了这一点尚不清楚。本文提出了DistractionBench,用于评估VideoLLM在存在无关视频片段的情况下,是否能够稳健地连接主体和事件。通过受控干预,例如在较长视频中插入短广告片段,结果表明VideoLLM经常产生幻觉,将来自不同片段的实体间的交互关联起来,错误地将注入广告中的动作归因于主要视频中的主体。我们将这种系统性幻觉描述为“事件袋”(BoE)行为,即模型将视频视为事件的集合,而不是时间结构化的序列。对11个流行的VideoLLM的评估表明,所有模型都表现出显著的BoE行为。研究结果表明,VideoLLM缺乏可靠的时间定位机制,并推动开发具有更鲁棒的主体-事件关联的模型。

🔬 方法详解

问题定义:现有VideoLLM在理解长视频时,难以准确地将视频中的主体与事件在时间上进行关联。当视频中存在干扰信息,例如插入的广告片段时,模型容易混淆不同片段中的事件,将广告中的动作错误地归因于主要视频中的主体。这表明模型缺乏对视频时序结构的有效理解,无法区分不同时间段发生的事件。

核心思路:论文的核心思路是通过引入干扰片段来评估VideoLLM的时序理解能力。具体来说,通过在视频中插入无关的广告片段,观察模型是否会将广告中的事件与主要视频中的主体关联起来。如果模型出现这种错误关联,则表明模型存在“事件袋”行为,即模型将视频视为事件的集合,而不是时间结构化的序列。

技术框架:论文构建了一个名为DistractionBench的基准数据集,用于评估VideoLLM的时序理解能力。该基准数据集包含一系列视频,每个视频都包含一个主要视频片段和一个或多个插入的广告片段。论文使用这些视频作为输入,让VideoLLM回答关于视频内容的问题,并根据模型的回答来判断模型是否能够正确地将主体与事件在时间上进行关联。

关键创新:论文的关键创新在于提出了“事件袋”行为的概念,并设计了DistractionBench基准数据集来评估VideoLLM的这种行为。通过实验,论文证明了现有VideoLLM普遍存在“事件袋”行为,这表明这些模型在时序理解方面存在缺陷。

关键设计:DistractionBench基准数据集的关键设计在于插入的广告片段与主要视频片段的内容无关,但包含一些常见的动作或物体,例如人、动物、交通工具等。这样设计的目的是为了增加模型混淆不同片段中事件的难度,从而更有效地评估模型的时序理解能力。论文评估了11个流行的VideoLLM,并分析了它们在DistractionBench上的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所有评估的11个VideoLLM都表现出显著的“事件袋”行为,这表明现有模型在时序理解方面存在普遍的缺陷。通过DistractionBench的评估,论文量化了模型在存在干扰信息时的性能下降,为后续研究提供了重要的参考。

🎯 应用场景

该研究成果可应用于提升视频内容理解的准确性和可靠性,例如在视频监控、自动驾驶、智能家居等领域,避免因错误理解视频内容而导致的潜在风险。未来的研究可以基于此,开发更鲁棒的VideoLLM,提升其在复杂场景下的时序理解能力。

📄 摘要(原文)

A key capability for video understanding is reliably linking subjects to events across time, yet whether Video Large Language Models (VideoLLMs) actually achieve this remains unclear. In this work, we introduce DistractionBench to evaluate whether VideoLLMs can robustly link subjects and events in the presence of unrelated video segments. Through controlled interventions, such as inserting short advertisement clips into longer videos, we show that VideoLLMs frequently hallucinate interactions between entities from different segments, incorrectly attributing actions from injected advertisements to subjects in the main video. We characterize this systematic hallucination as bag-of-events (BoE) behavior, where models process videos as collections of events rather than temporally structured sequences. Evaluating 11 popular VideoLLMs, we find that all models exhibit substantial BoE behavior. Our findings suggest that VideoLLMs lack reliable mechanisms for temporal grounding and motivate the development of models with more robust subject-event association.