Don't Pause! Every prediction matters in a streaming video
作者: Dibyadip Chatterjee, Zhanzhong Pang, Fadime Sener, Yale Song, Angela Yao
分类: cs.CV
发布日期: 2026-04-27
备注: 29 pages, 14 figures; https://dibschat.github.io/SPOT-Bench
💡 一句话要点
提出SPOT-Bench评估流视频理解模型的实时性,并提出AsynKV提升性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 流视频理解 实时预测 VideoQA 基准测试 长短期记忆 动态计算 无训练自适应
📋 核心要点
- 现有VideoQA基准测试主要关注回顾性评估,忽略了流式视频理解中实时预测能力的重要性。
- 论文提出SPOT-Bench,一个包含多轮主动查询的基准,以及Timeliness-F1指标,用于评估流式预测的实时性和覆盖率。
- 论文提出了AsynKV,一种无需训练的流式自适应方法,通过在“死时间”缩放计算来提升性能,并在SPOT-Bench上表现出色。
📝 摘要(中文)
流视频模型应该在事件发生时立即做出反应,而不是事后。然而,现有的在线VideoQA基准测试在很大程度上是回顾性的,它们在固定的时间戳暂停视频,提出关于当前或过去事件的问题,并且仅在这些时刻对模型进行评分。这种协议使得流式预测未经测试。为了弥补这一差距,我们引入了SPOT-Bench,它具有多轮主动查询,可评估实时助手所需的通用流式感知和辅助能力。SPOT-Bench配备了Timeliness-F1,这是一个综合指标,通过其时间精度和整个视频的平衡覆盖率来衡量流式预测。我们的基准测试表明:(i)离线模型可靠地检测事件,但会未经提示地发送垃圾预测;(ii)用于抑制沉默的后训练减少了垃圾信息,但导致无响应;(iii)一半的流视频不需要响应,我们称之为死时间——在此花费的计算不会影响响应延迟。这些发现促使我们提出了AsynKV,这是一种无需训练的离线模型流式自适应方法,它保留了它们的事件感知能力,同时改善了它们的流式行为。AsynKV具有长短期记忆,通过在死时间内缩放计算来有效利用。它作为SPOT-Bench上的强大基线,优于现有的流模型,并在回顾性基准测试中实现了最先进的性能。
🔬 方法详解
问题定义:现有在线VideoQA基准测试主要关注回顾性评估,即在视频的固定时间戳暂停,然后提问。这种方式无法有效评估模型在流式视频中的实时预测能力,尤其是在需要模型持续感知并及时响应的场景下。现有方法的痛点在于无法衡量模型在整个视频时间轴上的预测精度和覆盖率,以及对无信息量的时间段的计算浪费。
核心思路:论文的核心思路是构建一个更贴近实际应用的流式视频理解评估框架,并设计一种能够有效利用视频中“死时间”的自适应方法。通过引入多轮主动查询和新的评估指标,更全面地衡量模型的实时预测能力。同时,通过在“死时间”动态调整计算资源,提高计算效率。
技术框架:整体框架包含两个主要部分:SPOT-Bench基准测试和AsynKV模型。SPOT-Bench提供了一个包含多轮主动查询的流式视频数据集,并使用Timeliness-F1指标来评估模型的性能。AsynKV模型则是在离线模型的基础上,通过引入长短期记忆(LSTM)和动态计算缩放机制,使其能够适应流式视频的实时预测需求。该框架无需重新训练模型,即可实现流式视频理解。
关键创新:论文的关键创新点在于:1) 提出了SPOT-Bench基准测试,弥补了现有VideoQA基准测试在流式视频理解评估方面的不足;2) 提出了Timeliness-F1指标,能够更全面地衡量模型在流式视频中的实时预测能力;3) 提出了AsynKV模型,通过在“死时间”动态调整计算资源,提高了计算效率,同时保持了离线模型的事件感知能力。
关键设计:AsynKV的关键设计包括:1) 使用LSTM来记忆视频的历史信息,从而更好地进行预测;2) 设计了一种动态计算缩放机制,在视频的“死时间”减少计算量,从而提高计算效率;3) 采用了一种无需训练的自适应方法,可以直接将离线模型转换为流式模型。具体参数设置和网络结构细节在论文中进行了详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
SPOT-Bench基准测试表明,离线模型虽然能可靠地检测事件,但会产生大量无意义的预测。AsynKV模型在SPOT-Bench上优于现有的流模型,并在回顾性基准测试中达到了最先进的性能。实验结果验证了AsynKV在流式视频理解方面的有效性和优越性,以及SPOT-Bench基准测试的价值。
🎯 应用场景
该研究成果可应用于智能助手、监控系统、自动驾驶等领域。例如,智能助手可以利用该技术实时理解用户的视频内容,并根据视频中的事件提供相应的帮助。监控系统可以利用该技术实时检测异常事件,并及时发出警报。自动驾驶系统可以利用该技术实时感知周围环境,并做出相应的决策。该研究有望推动流式视频理解技术的发展,并为相关应用带来更智能、更高效的解决方案。
📄 摘要(原文)
Streaming video models should respond the moment an event unfolds, not after the moment has passed. Yet existing online VideoQA benchmarks remain largely retrospective. They pause the video at fixed timestamps, pose questions about current or past events, and score models only at those moments. This protocol leaves streaming predictions untested. To close this gap, we introduce SPOT-Bench, featuring multi-turn proactive queries that evaluate general streaming perception and assistive capabilities required by an always-on, real-time assistant. SPOT-Bench comes with Timeliness-F1, a consolidated metric that measures streaming predictions by their temporal precision and balanced coverage across the entire video. Our benchmark reveals: (i) offline models detect events reliably but spam predictions unprompted; (ii) post-training for silence reduces spamming but induces unresponsiveness; (iii) half of the streaming video expects no response, which we term dead-time - compute spent here does not affect response latency. These findings motivate AsynKV, a training-free streaming adaptation of offline models, that retains their event perception while improving their streaming behavior. AsynKV features a long-short term memory, utilized efficiently by scaling compute during dead-time. It serves as a strong baseline on SPOT-Bench, outperforming existing streaming models, and achieves state-of-the-art on retrospective benchmarks.