Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously
作者: Yiran Guan, Liang Yin, Dingkang Liang, Jianzhong Ju, Zhenbo Luo, Jian Luan, Yuliang Liu, Xiang Bai
分类: cs.CV
发布日期: 2026-03-12
🔗 代码/项目: GITHUB
💡 一句话要点
提出视频流思维机制以解决视频理解中的响应延迟问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频流思维 实时推理 视频理解 多轮交互 自动化数据合成 知识图谱 链式思维
📋 核心要点
- 现有视频理解方法主要关注流媒体感知,缺乏有效的逻辑推理机制,导致响应延迟问题。
- 本文提出视频流思维(VST),实现观看视频时的实时推理,提升理解效率和认知连贯性。
- VST-7B在StreamingBench和OVO-Bench等基准测试中表现出色,响应速度提高15.7倍,准确率提升5.4%。
📝 摘要(中文)
在线视频大语言模型(VideoLLMs)在支持实时互动中发挥着重要作用。然而,现有方法主要集中在流媒体感知上,缺乏同步的逻辑推理流。为了解决这一权衡,本文提出了视频流思维(VST)这一新范式,支持在观看视频的同时进行推理。这一设计通过在视频播放过程中分摊推理延迟,提高了及时理解和连贯认知的能力。此外,本文还引入了一套全面的后训练流程,整合了VST-SFT和VST-RL,提升了多轮视频交互环境中的自我探索能力。实验结果表明,VST-7B在多个在线基准测试中表现优异,响应速度显著提高,且在多种视频理解任务中展现出强大的泛化能力。
🔬 方法详解
问题定义:本文旨在解决现有视频理解方法在流媒体交互中缺乏同步推理的痛点,导致响应延迟和理解效率低下的问题。
核心思路:提出视频流思维(VST)机制,允许模型在观看视频的同时进行推理,从而提高理解的及时性和连贯性。通过在视频播放过程中分摊推理延迟,保持实时响应。
技术框架:整体架构包括视频流输入模块、推理模块和后训练管道。VST-SFT用于结构性适应离线VideoLLM到因果流媒体推理,VST-RL则通过自我探索提升多轮交互能力。
关键创新:最重要的创新在于引入了思维与观看的同时进行机制,显著提高了视频理解的效率和准确性,与传统方法相比,VST在响应速度和推理能力上具有本质区别。
关键设计:设计了自动化训练数据合成管道,利用视频知识图谱生成高质量的流媒体问答对,并采用基于实体-关系的链式思维强化多证据推理和持续关注视频流。
🖼️ 关键图片
📊 实验亮点
实验结果显示,VST-7B在StreamingBench上取得79.5%的准确率,在OVO-Bench上达到59.3%。与Video-R1相比,VST的响应速度提高了15.7倍,并在VideoHolmes上实现了5.4%的准确率提升,展现出更高的效率和强大的泛化能力。
🎯 应用场景
该研究具有广泛的应用潜力,尤其在实时视频分析、智能监控、在线教育和娱乐等领域。通过提升视频理解的效率和准确性,VST能够为用户提供更为流畅和智能的交互体验,未来可能推动多模态AI系统的发展。
📄 摘要(原文)
Online Video Large Language Models (VideoLLMs) play a critical role in supporting responsive, real-time interaction. Existing methods focus on streaming perception, lacking a synchronized logical reasoning stream. However, directly applying test-time scaling methods incurs unacceptable response latency. To address this trade-off, we propose Video Streaming Thinking (VST), a novel paradigm for streaming video understanding. It supports a thinking while watching mechanism, which activates reasoning over incoming video clips during streaming. This design improves timely comprehension and coherent cognition while preserving real-time responsiveness by amortizing LLM reasoning latency over video playback. Furthermore, we introduce a comprehensive post-training pipeline that integrates VST-SFT, which structurally adapts the offline VideoLLM to causal streaming reasoning, and VST-RL, which provides end-to-end improvement through self-exploration in a multi-turn video interaction environment. Additionally, we devise an automated training-data synthesis pipeline that uses video knowledge graphs to generate high-quality streaming QA pairs, with an entity-relation grounded streaming Chain-of-Thought to enforce multi-evidence reasoning and sustained attention to the video stream. Extensive evaluations show that VST-7B performs strongly on online benchmarks, e.g. 79.5% on StreamingBench and 59.3% on OVO-Bench. Meanwhile, VST remains competitive on offline long-form or reasoning benchmarks. Compared with Video-R1, VST responds 15.7 times faster and achieves +5.4% improvement on VideoHolmes, demonstrating higher efficiency and strong generalization across diverse video understanding tasks. Code, data, and models will be released at https://github.com/1ranGuan/VST.