StreamForest: Efficient Online Video Understanding with Persistent Event Memory

📄 arXiv: 2509.24871v1 📥 PDF

作者: Xiangyu Zeng, Kefan Qiu, Qingyu Zhang, Xinhao Li, Jing Wang, Jiaxin Li, Ziang Yan, Kun Tian, Meng Tian, Xinhai Zhao, Yi Wang, Limin Wang

分类: cs.CV

发布日期: 2025-09-29

备注: Accepted as a Spotlight at NeurIPS 2025


💡 一句话要点

提出StreamForest,利用持久事件记忆实现高效的在线视频理解。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 流式视频理解 持久事件记忆 多模态大语言模型 实时感知 自动驾驶

📋 核心要点

  1. 现有MLLM在流式视频理解中,受限于历史视觉特征的存储和实时时空推理能力。
  2. StreamForest通过持久事件记忆森林,自适应组织视频帧,并利用细粒度时空窗口增强实时感知。
  3. 在StreamingBench等多个基准测试中,StreamForest取得了SOTA性能,并具有良好的鲁棒性。

📝 摘要(中文)

本文提出了一种名为StreamForest的新型架构,专为流式视频理解而设计。StreamForest的核心是持久事件记忆森林,这是一种能够自适应地将视频帧组织成多个事件级树结构的记忆机制。该过程由基于时间距离、内容相似性和合并频率的惩罚函数引导,从而在有限的计算资源下实现高效的长期记忆保持。为了增强实时感知,引入了细粒度时空窗口,捕捉详细的短期视觉线索,以改善当前场景的感知。此外,还提出了OnlineIT,这是一个专为流式视频任务定制的指令调优数据集,显著提升了MLLM在实时感知和未来预测方面的性能。为了评估在实际应用中的泛化能力,引入了ODV-Bench,这是一个专注于自动驾驶场景中实时流式视频理解的新基准。实验结果表明,StreamForest实现了最先进的性能,在StreamingBench、OVBench和OVO-Bench上的准确率分别为77.3%、60.5%和55.6%。特别是在极端的视觉token压缩下(限制为1024个token),该模型相对于默认设置,在八个基准测试中仍保持了平均准确率的96.8%。这些结果突显了StreamForest在流式视频理解方面的鲁棒性、效率和泛化能力。

🔬 方法详解

问题定义:现有方法在处理流式视频时,由于需要存储大量的历史视觉特征,面临着存储空间的限制。同时,实时的时空推理能力不足,难以有效地理解视频内容。因此,需要一种能够在有限资源下进行长期记忆保持,并能增强实时感知的流式视频理解方法。

核心思路:StreamForest的核心思路是构建一个持久事件记忆森林,通过自适应地将视频帧组织成多个事件级别的树结构,实现对视频内容的有效记忆和理解。同时,利用细粒度时空窗口捕捉短期的视觉线索,增强实时感知能力。这种设计能够在有限的计算资源下,实现高效的长期记忆保持和实时的视频理解。

技术框架:StreamForest的整体架构包含以下几个主要模块:1) 持久事件记忆森林:用于长期记忆视频内容,通过惩罚函数引导视频帧的组织。2) 细粒度时空窗口:用于捕捉短期的视觉线索,增强实时感知能力。3) 多模态大语言模型(MLLM):用于进行视频理解和推理。整个流程是,首先通过细粒度时空窗口提取当前帧的视觉特征,然后利用持久事件记忆森林检索相关的历史信息,最后将这些信息输入到MLLM中进行理解和推理。

关键创新:StreamForest的关键创新点在于持久事件记忆森林的设计。与传统的记忆机制不同,持久事件记忆森林能够自适应地组织视频帧,并根据时间距离、内容相似性和合并频率等因素进行动态调整。这种设计使得模型能够在有限的资源下,有效地保持长期记忆,并能够快速地检索相关信息。

关键设计:持久事件记忆森林的关键设计包括:1) 基于时间距离、内容相似性和合并频率的惩罚函数,用于引导视频帧的组织。2) 树结构的动态调整机制,用于适应视频内容的变化。3) 细粒度时空窗口的大小和步长,用于控制实时感知的范围。OnlineIT数据集的构建,用于指令调优MLLM,提升其在流式视频任务上的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

StreamForest在StreamingBench、OVBench和OVO-Bench三个基准测试中分别取得了77.3%、60.5%和55.6%的准确率,达到了SOTA性能。即使在视觉token压缩到1024的情况下,模型仍然保持了平均准确率的96.8%,展示了其强大的鲁棒性和效率。这些结果表明StreamForest在流式视频理解方面具有显著的优势。

🎯 应用场景

StreamForest在自动驾驶、智能监控、在线教育等领域具有广泛的应用前景。例如,在自动驾驶中,可以利用StreamForest实时理解周围环境,并进行决策。在智能监控中,可以用于检测异常事件,并进行报警。在在线教育中,可以用于分析学生的学习行为,并提供个性化的学习建议。该研究有助于提升视频理解系统的智能化水平。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have recently achieved remarkable progress in video understanding. However, their effectiveness in real-time streaming scenarios remains limited due to storage constraints of historical visual features and insufficient real-time spatiotemporal reasoning. To address these challenges, we propose StreamForest, a novel architecture specifically designed for streaming video understanding. Central to StreamForest is the Persistent Event Memory Forest, a memory mechanism that adaptively organizes video frames into multiple event-level tree structures. This process is guided by penalty functions based on temporal distance, content similarity, and merge frequency, enabling efficient long-term memory retention under limited computational resources. To enhance real-time perception, we introduce a Fine-grained Spatiotemporal Window, which captures detailed short-term visual cues to improve current scene perception. Additionally, we present OnlineIT, an instruction-tuning dataset tailored for streaming video tasks. OnlineIT significantly boosts MLLM performance in both real-time perception and future prediction. To evaluate generalization in practical applications, we introduce ODV-Bench, a new benchmark focused on real-time streaming video understanding in autonomous driving scenarios. Experimental results demonstrate that StreamForest achieves the state-of-the-art performance, with accuracies of 77.3% on StreamingBench, 60.5% on OVBench, and 55.6% on OVO-Bench. In particular, even under extreme visual token compression (limited to 1024 tokens), the model retains 96.8% of its average accuracy in eight benchmarks relative to the default setting. These results underscore the robustness, efficiency, and generalizability of StreamForest for streaming video understanding.