CurveStream: Boosting Streaming Video Understanding in MLLMs via Curvature-Aware Hierarchical Visual Memory Management

📄 arXiv: 2603.19571v1 📥 PDF

作者: Chao Wang, Xudong Tan, Jianjian Cao, Kangcong Li, Tao Chen

分类: cs.CV

发布日期: 2026-03-20

🔗 代码/项目: GITHUB


💡 一句话要点

CurveStream:提出曲率感知的分层视觉记忆管理,提升MLLM在流视频理解中的性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 流视频理解 多模态大语言模型 视觉记忆管理 曲率感知 语义感知

📋 核心要点

  1. 现有流视频理解方法缺乏语义感知,易导致上下文断裂和关键语义信息丢失。
  2. CurveStream利用特征轨迹曲率评估语义强度,自适应管理视觉记忆,保留关键帧。
  3. 实验表明,CurveStream在多个数据集上显著提升了流视频理解性能,超过现有方法。

📝 摘要(中文)

多模态大型语言模型在离线视频理解方面取得了显著成功,但由于视觉token的线性爆炸式增长,它们在流视频中的应用受到严重限制,这通常会导致内存不足(OOM)错误或灾难性遗忘。现有的视觉保留和记忆管理方法通常依赖于均匀采样、低级物理指标或被动缓存淘汰。然而,这些策略通常缺乏内在的语义感知,可能会破坏上下文连贯性并模糊短暂但关键的语义转换。为了解决这些限制,我们提出了一种无需训练的、曲率感知的分层视觉记忆管理框架CurveStream。我们的方法基于一个关键观察,即沿连续特征轨迹的高曲率区域与关键的全局语义转换紧密对齐。基于这种几何洞察,CurveStream通过曲率评分评估实时语义强度,并集成在线K-Sigma动态阈值,以在严格的token预算下自适应地将帧路由到清晰和模糊的记忆状态。在不同时间尺度上的评估证实,这种轻量级框架CurveStream始终产生超过10%的绝对性能提升(例如,在StreamingBench上为10.69%,在OVOBench上为13.58%),为流视频感知建立了新的最先进结果。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLM)在处理流视频时,由于视觉token数量爆炸增长导致的内存不足和灾难性遗忘问题。现有方法如均匀采样、基于物理指标或被动缓存淘汰,缺乏对视频语义的感知,无法有效保留关键信息,导致上下文连贯性受损。

核心思路:论文的核心思路是利用视频帧特征轨迹的曲率来衡量语义变化强度。高曲率区域对应于视频中重要的语义转换。通过优先保留这些高曲率区域的帧,可以在有限的token预算下最大化保留视频的关键信息。

技术框架:CurveStream框架包含以下主要模块:1) 特征提取:提取视频帧的视觉特征。2) 曲率计算:计算连续帧特征轨迹的曲率,作为语义强度的度量。3) 动态阈值:使用在线K-Sigma动态阈值方法,根据曲率值自适应地将帧分配到清晰或模糊的记忆状态。4) 分层记忆管理:根据帧的记忆状态(清晰或模糊)进行分层存储和管理,在token预算限制下,优先保留清晰记忆状态的帧。

关键创新:CurveStream的关键创新在于提出了一种基于曲率的语义感知视觉记忆管理方法。与现有方法相比,它能够更有效地识别和保留视频中的关键语义转换,从而提高流视频理解的性能。此外,该方法是无需训练的,易于集成到现有的MLLM框架中。

关键设计:CurveStream使用K-Sigma动态阈值来区分清晰和模糊的记忆状态。K值是一个可调参数,用于控制阈值的灵敏度。论文中没有明确说明损失函数或网络结构,因为该方法主要关注记忆管理策略,而非模型训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CurveStream在StreamingBench和OVOBench数据集上分别取得了10.69%和13.58%的绝对性能提升,显著优于现有基线方法。这些结果表明,CurveStream能够有效地提升MLLM在流视频理解中的性能,并在不同时间尺度上都表现出良好的泛化能力。该方法无需训练,易于部署,具有很强的实用价值。

🎯 应用场景

CurveStream可应用于实时视频监控、智能会议、在线教育等需要实时理解视频内容的场景。通过提升MLLM在流视频理解中的性能,可以实现更智能的视频分析和交互,例如实时事件检测、内容摘要生成、以及更自然的视频问答系统。该研究有望推动多模态大模型在实际应用中的落地。

📄 摘要(原文)

Multimodal Large Language Models have achieved significant success in offline video understanding, yet their application to streaming videos is severely limited by the linear explosion of visual tokens, which often leads to Out-of-Memory (OOM) errors or catastrophic forgetting. Existing visual retention and memory management methods typically rely on uniform sampling, low-level physical metrics, or passive cache eviction. However, these strategies often lack intrinsic semantic awareness, potentially disrupting contextual coherence and blurring transient yet critical semantic transitions. To address these limitations, we propose CurveStream, a training-free, curvature-aware hierarchical visual memory management framework. Our approach is motivated by the key observation that high-curvature regions along continuous feature trajectories closely align with critical global semantic transitions. Based on this geometric insight, CurveStream evaluates real-time semantic intensity via a Curvature Score and integrates an online K-Sigma dynamic threshold to adaptively route frames into clear and fuzzy memory states under a strict token budget. Evaluations across diverse temporal scales confirm that this lightweight framework, CurveStream, consistently yields absolute performance gains of over 10% (e.g., 10.69% on StreamingBench and 13.58% on OVOBench) over respective baselines, establishing new state-of-the-art results for streaming video perception.The code will be released at https://github.com/streamingvideos/CurveStream.