Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

📄 arXiv: 2603.11896v1 📥 PDF

作者: Lu Wang, Zhuoran Jin, Yupu Hao, Yubo Chen, Kang Liu, Yulong Ao, Jun Zhao

分类: cs.CV, cs.AI, cs.CL

发布日期: 2026-03-12

🔗 代码/项目: GITHUB


💡 一句话要点

提出Think While Watching框架,解决MLLM在线视频流多轮推理中长时依赖建模问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 在线视频理解 流式视频推理 长时依赖建模 记忆锚定

📋 核心要点

  1. 现有MLLM在处理在线视频流的多轮交互时,存在推理能力弱、长时依赖建模困难的问题。
  2. Think While Watching框架通过保留连续的片段级记忆,实现记忆锚定的流式视频推理。
  3. 实验结果表明,该方法在单轮和多轮流式输入下均表现出色,显著提升了准确率并减少了输出token。

📝 摘要(中文)

多模态大型语言模型(MLLM)在离线视频理解方面表现出强大的性能,但大多数模型仅限于离线推理或在线推理能力较弱,这使得对连续到达的视频流进行多轮交互变得困难。现有的流式处理方法通常采用交错的感知-生成范式,这阻碍了并发的感知和生成,并导致随着流的增长,早期记忆衰减,从而损害了长程依赖建模。我们提出了Think While Watching,这是一个记忆锚定的流式视频推理框架,它在多轮交互期间保留连续的片段级记忆。我们构建了一个三阶段、多轮的思维链数据集,并采用阶段匹配的训练策略,同时通过片段级流式因果掩码和流式位置编码来强制执行严格的因果关系。在推理过程中,我们引入了一个高效的流水线,可以重叠观看和思考,并自适应地选择最佳的注意力后端。在单轮和多轮流式输入协议下,我们的方法都取得了强大的结果。基于Qwen3-VL,它在StreamingBench上的单轮准确率提高了2.6%,在OVO-Bench上提高了3.79%。在多轮设置中,它在保持性能的同时,减少了56%的输出token。

🔬 方法详解

问题定义:现有MLLM在处理在线视频流时,通常采用交错的感知-生成范式,导致感知和生成无法并行,且随着视频流的增长,早期记忆会迅速衰减,严重影响了模型对长时依赖关系的建模能力。这使得模型难以进行有效的多轮交互和推理。

核心思路:Think While Watching的核心在于构建一个记忆锚定的流式视频推理框架,该框架能够持续地维护片段级别的记忆,从而克服传统方法中记忆衰减的问题。通过在观看视频的同时进行思考,模型可以更好地理解视频内容,并为后续的多轮交互提供更可靠的上下文信息。

技术框架:该框架主要包含三个阶段:视频片段编码、记忆存储和推理生成。首先,视频被分割成多个片段,并使用视觉编码器提取特征。然后,这些特征被存储在记忆模块中,形成连续的片段级记忆。在推理阶段,模型利用这些记忆,结合用户的提问,生成相应的答案。整个过程采用流水线式设计,使得观看和思考可以并行进行。

关键创新:该方法最重要的创新点在于其记忆锚定的流式处理机制。与传统的交错式感知-生成范式不同,该方法能够持续地维护视频片段的记忆,从而避免了早期记忆的衰减。此外,该方法还采用了片段级流式因果掩码和流式位置编码,以确保模型能够严格遵循因果关系,并有效地利用视频流中的时间信息。

关键设计:在训练阶段,论文构建了一个三阶段、多轮的思维链数据集,并采用阶段匹配的训练策略。为了保证因果关系,使用了片段级流式因果掩码和流式位置编码。在推理阶段,采用高效的流水线,重叠观看和思考过程,并自适应地选择最佳的注意力后端。具体注意力后端选择策略未知。

📊 实验亮点

Think While Watching框架在StreamingBench和OVO-Bench数据集上取得了显著的性能提升。在单轮设置下,基于Qwen3-VL,该方法在StreamingBench上的准确率提高了2.6%,在OVO-Bench上提高了3.79%。在多轮设置下,该方法在保持性能的同时,减少了56%的输出token,表明其在处理长时依赖关系方面具有显著优势。

🎯 应用场景

该研究成果可应用于智能监控、视频会议、在线教育等领域。例如,在智能监控中,该方法可以帮助模型理解监控视频中的事件,并及时发出警报。在视频会议中,该方法可以帮助模型理解会议内容,并为用户提供实时的摘要和翻译。在在线教育中,该方法可以帮助模型理解教学视频,并为学生提供个性化的辅导。

📄 摘要(原文)

Multimodal large language models (MLLMs) have shown strong performance on offline video understanding, but most are limited to offline inference or have weak online reasoning, making multi-turn interaction over continuously arriving video streams difficult. Existing streaming methods typically use an interleaved perception-generation paradigm, which prevents concurrent perception and generation and leads to early memory decay as streams grow, hurting long-range dependency modeling. We propose Think While Watching, a memory-anchored streaming video reasoning framework that preserves continuous segment-level memory during multi-turn interaction. We build a three-stage, multi-round chain-of-thought dataset and adopt a stage-matched training strategy, while enforcing strict causality through a segment-level streaming causal mask and streaming positional encoding. During inference, we introduce an efficient pipeline that overlaps watching and thinking and adaptively selects the best attention backend. Under both single-round and multi-round streaming input protocols, our method achieves strong results. Built on Qwen3-VL, it improves single-round accuracy by 2.6% on StreamingBench and by 3.79% on OVO-Bench. In the multi-round setting, it maintains performance while reducing output tokens by 56%. Code is available at: https://github.com/wl666hhh/Think_While_Watching/