VideoStir: Understanding Long Videos via Spatio-Temporally Structured and Intent-Aware RAG

📄 arXiv: 2604.05418v1 📥 PDF

作者: Honghao Fu, Miao Xu, Yiwei Wang, Dailing Zhang, Liu Jun, Yujun Cai

分类: cs.CV, cs.AI

发布日期: 2026-04-07

备注: Accepted by ACL 2026


💡 一句话要点

VideoStir:提出时空结构化和意图感知的RAG框架,用于理解长视频

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长视频理解 检索增强生成 时空图 意图感知 多模态学习

📋 核心要点

  1. 现有长视频理解方法将视频分割成独立片段,忽略了视频固有的时空结构,且依赖显式语义匹配,易丢失隐式相关信息。
  2. VideoStir通过构建时空图进行多跳检索,并引入MLLM支持的意图相关性评分器,实现结构化和意图感知的长视频理解。
  3. 实验表明,VideoStir在不依赖额外信息的情况下,性能与SOTA基线相当,验证了结构化和意图感知推理的有效性。

📝 摘要(中文)

为了将多模态大型语言模型(MLLM)扩展到长视频,受限于有限的上下文窗口。检索增强生成(RAG)是一种有前景的补救方法,它将查询相关的视觉证据组织成紧凑的上下文。然而,现有方法通常(i)将视频扁平化为独立的片段,破坏了其固有的时空结构,并且(ii)依赖于显式的语义匹配,这可能会错过与查询意图相关的隐式线索。为了克服这些限制,我们提出了VideoStir,一个结构化和意图感知的长视频RAG框架。它首先将视频构建为剪辑级别的时空图,然后执行多跳检索,以聚合跨越遥远但上下文相关的事件的证据。此外,它引入了一个MLLM支持的意图相关性评分器,该评分器根据帧与查询推理意图的对齐程度来检索帧。为了支持这种能力,我们整理了IR-600K,这是一个大规模数据集,专门用于学习帧-查询意图对齐。实验表明,VideoStir在不依赖辅助信息的情况下,与最先进的基线相比具有竞争力,突出了将长视频RAG从扁平化的语义匹配转变为结构化的、意图感知的推理的希望。代码和检查点可在Github上获得。

🔬 方法详解

问题定义:现有长视频理解方法主要存在两个痛点:一是将长视频分割成独立的片段,忽略了视频固有的时空结构信息;二是依赖于显式的语义匹配,容易错过与用户查询意图相关的隐式线索,导致检索结果不准确。

核心思路:VideoStir的核心思路是构建视频的时空结构,并结合用户的查询意图进行检索。通过时空图结构,可以捕捉视频中事件之间的上下文关系,而意图感知的检索则可以更准确地找到与用户查询相关的帧。这样设计的目的是为了克服现有方法中忽略时空结构和意图信息的缺点,从而提高长视频理解的准确性。

技术框架:VideoStir框架主要包含以下几个模块:1) 时空图构建:将视频分割成clip,并在clip级别构建时空图,节点表示clip,边表示clip之间的时空关系。2) 多跳检索:在时空图上进行多跳检索,聚合来自不同clip的证据,从而捕捉视频中的上下文信息。3) 意图相关性评分:使用MLLM对帧和查询之间的意图相关性进行评分,从而选择与用户查询意图最相关的帧。4) 答案生成:将检索到的帧和用户查询输入到MLLM中,生成最终的答案。

关键创新:VideoStir的关键创新在于:1) 时空图结构:通过构建时空图,显式地建模了视频中事件之间的时空关系,从而可以更好地理解视频的内容。2) 意图感知检索:通过MLLM对帧和查询之间的意图相关性进行评分,从而可以更准确地找到与用户查询相关的帧。这与现有方法中依赖显式语义匹配的方法有本质区别。

关键设计:在时空图构建方面,使用了clip级别的表示,并根据clip之间的时间和空间关系构建边。在意图相关性评分方面,使用了预训练的MLLM,并使用IR-600K数据集进行微调,以提高意图识别的准确性。损失函数的设计目标是最大化相关帧的得分,最小化不相关帧的得分。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VideoStir在多个长视频理解任务上取得了有竞争力的结果,无需依赖额外的辅助信息。例如,在IR-600K数据集上,VideoStir的性能与SOTA基线相当,证明了其在长视频理解方面的有效性。这表明,通过结构化和意图感知的RAG框架,可以有效地提高长视频理解的准确性。

🎯 应用场景

VideoStir可应用于智能视频分析、视频搜索、智能客服等领域。例如,在视频搜索中,用户可以通过自然语言查询视频内容,VideoStir可以根据用户的意图,准确地检索到相关的视频片段。在智能客服中,VideoStir可以根据用户的问题,从视频中提取相关信息,并生成答案,从而提高客服效率。该研究的未来影响在于推动长视频理解技术的发展,为更多应用场景提供支持。

📄 摘要(原文)

Scaling multimodal large language models (MLLMs) to long videos is constrained by limited context windows. While retrieval-augmented generation (RAG) is a promising remedy by organizing query-relevant visual evidence into a compact context, most existing methods (i) flatten videos into independent segments, breaking their inherent spatio-temporal structure, and (ii) depend on explicit semantic matching, which can miss cues that are implicitly relevant to the query's intent. To overcome these limitations, we propose VideoStir, a structured and intent-aware long-video RAG framework. It firstly structures a video as a spatio-temporal graph at clip level, and then performs multi-hop retrieval to aggregate evidence across distant yet contextually related events. Furthermore, it introduces an MLLM-backed intent-relevance scorer that retrieves frames based on their alignment with the query's reasoning intent. To support this capability, we curate IR-600K, a large-scale dataset tailored for learning frame-query intent alignment. Experiments show that VideoStir is competitive with state-of-the-art baselines without relying on auxiliary information, highlighting the promise of shifting long-video RAG from flattened semantic matching to structured, intent-aware reasoning. Codes and checkpoints are available at Github.