ReVisionLLM: Recursive Vision-Language Model for Temporal Grounding in Hour-Long Videos

📄 arXiv: 2411.14901v1 📥 PDF

作者: Tanveer Hannan, Md Mohaiminul Islam, Jindong Gu, Thomas Seidl, Gedas Bertasius

分类: cs.CV, cs.CL

发布日期: 2024-11-22

🔗 代码/项目: GITHUB


💡 一句话要点

提出ReVisionLLM,解决小时级视频中时序定位难题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长视频理解 时序定位 视觉语言模型 递归模型 分层训练

📋 核心要点

  1. 现有VLM在处理长视频时,由于帧数限制,难以捕捉到精确的时序信息,导致时序定位性能下降。
  2. ReVisionLLM模仿人类搜索策略,通过递归地缩小搜索范围,从粗到精地定位视频中的事件。
  3. ReVisionLLM通过分层训练策略,逐步适应从短视频到长视频的训练,并在多个数据集上取得了显著的性能提升。

📝 摘要(中文)

大型语言模型(LLM)擅长从长文本中检索信息,但其视觉-语言对应模型(VLM)在处理小时级视频时面临困难,尤其是在时序定位方面。这些VLM受到帧数限制,常常丢失精确事件定位所需的关键时间细节。我们提出了ReVisionLLM,一种递归视觉-语言模型,旨在定位小时级视频中的事件。受人类搜索策略的启发,我们的模型首先定位感兴趣的广泛片段,然后逐步修正其焦点以精确定位时间边界。我们的模型可以无缝处理从几分钟到几小时的不同长度的视频。我们还引入了一种分层训练策略,从短片段开始以捕获不同的事件,然后逐步扩展到更长的视频。据我们所知,ReVisionLLM是第一个能够进行小时级视频时序定位的VLM,在多个数据集上显著优于先前的最先进方法(在MAD上+2.6% R1@0.1)。代码可在https://github.com/Tanveer81/ReVisionLLM 获得。

🔬 方法详解

问题定义:论文旨在解决在小时级长视频中进行精确时序定位的问题。现有的视觉-语言模型(VLM)在处理长视频时,由于计算资源和模型容量的限制,通常无法处理所有帧,导致关键的时间细节丢失,从而影响了时序定位的准确性。此外,现有方法难以适应不同长度的视频。

核心思路:ReVisionLLM的核心思路是模仿人类在长视频中寻找特定事件的策略,即先粗略定位到包含目标事件的视频片段,然后逐步缩小搜索范围,最终精确定位事件的起始和结束时间。这种递归的搜索方式能够有效地处理长视频,并减少计算资源的消耗。

技术框架:ReVisionLLM的整体框架包含以下几个主要模块:1) 视频编码器:用于提取视频帧的视觉特征。2) 文本编码器:用于提取查询语句的文本特征。3) 递归定位模块:该模块是ReVisionLLM的核心,它通过多轮迭代,逐步缩小搜索范围,最终定位目标事件。每一轮迭代包括:a) 粗略定位:根据视觉和文本特征,选择包含目标事件的视频片段。b) 精细定位:在选定的视频片段中,进一步定位事件的起始和结束时间。4) 分层训练模块:从短视频开始训练,逐步过渡到长视频,提高模型在长视频上的泛化能力。

关键创新:ReVisionLLM的关键创新在于其递归定位模块和分层训练策略。递归定位模块模仿了人类的搜索策略,能够有效地处理长视频,并减少计算资源的消耗。分层训练策略能够提高模型在长视频上的泛化能力,避免了过拟合。

关键设计:在递归定位模块中,每一轮迭代都使用交叉注意力机制来融合视觉和文本特征。损失函数包括定位损失和分类损失,用于优化模型的定位精度和分类准确率。分层训练策略中,视频长度逐渐增加,模型逐渐适应长视频的训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ReVisionLLM在多个数据集上取得了显著的性能提升。例如,在MAD数据集上,ReVisionLLM的R1@0.1指标比之前的最先进方法提高了2.6%。实验结果表明,ReVisionLLM能够有效地处理小时级长视频,并在时序定位方面取得了显著的优势。

🎯 应用场景

ReVisionLLM在视频监控、视频检索、智能安防等领域具有广泛的应用前景。例如,在视频监控中,可以利用ReVisionLLM快速定位特定事件,提高监控效率。在视频检索中,可以根据用户输入的文本描述,快速找到包含目标事件的视频片段。此外,ReVisionLLM还可以应用于智能安防领域,例如自动检测异常行为。

📄 摘要(原文)

Large language models (LLMs) excel at retrieving information from lengthy text, but their vision-language counterparts (VLMs) face difficulties with hour-long videos, especially for temporal grounding. Specifically, these VLMs are constrained by frame limitations, often losing essential temporal details needed for accurate event localization in extended video content. We propose ReVisionLLM, a recursive vision-language model designed to locate events in hour-long videos. Inspired by human search strategies, our model initially targets broad segments of interest, progressively revising its focus to pinpoint exact temporal boundaries. Our model can seamlessly handle videos of vastly different lengths, from minutes to hours. We also introduce a hierarchical training strategy that starts with short clips to capture distinct events and progressively extends to longer videos. To our knowledge, ReVisionLLM is the first VLM capable of temporal grounding in hour-long videos, outperforming previous state-of-the-art methods across multiple datasets by a significant margin (+2.6% R1@0.1 on MAD). The code is available at https://github.com/Tanveer81/ReVisionLLM.