TimeChat-Online: 80% Visual Tokens are Naturally Redundant in Streaming Videos

作者: Linli Yao, Yicheng Li, Yuancheng Wei, Lei Li, Shuhuai Ren, Yuanxin Liu, Kun Ouyang, Lean Wang, Shicheng Li, Sida Li, Lingpeng Kong, Qi Liu, Yuanxing Zhang, Xu Sun

分类: cs.CV

发布日期: 2025-04-24

💡 一句话要点

提出TimeChat-Online，通过差分Token丢弃解决在线视频流冗余问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 在线视频理解 流媒体视频 视觉冗余 差分Token丢弃 实时交互

📋 核心要点

现有VideoLLM难以有效处理流媒体视频中大量冗余帧，限制了其在实时视频理解中的应用。
TimeChat-Online通过差分Token丢弃（DTD）模块，过滤冗余信息，保留关键的时间变化。
实验证明DTD能显著减少token数量，同时保持甚至提升在流媒体视频理解任务上的性能。

📝 摘要（中文）

在线视频平台，特别是直播服务的快速增长，对实时视频理解系统提出了迫切需求。现有VideoLLM在处理完整视频方面表现出色，但在流媒体场景中，由于无法有效处理密集、冗余的帧而面临重大限制。我们提出了TimeChat-Online，一种新型在线VideoLLM，它通过创新的差分Token丢弃（DTD）模块，解决了流媒体视频中视觉冗余的根本挑战。DTD模块借鉴了人类视觉感知的变化盲视现象，保留有意义的时间变化，同时过滤掉帧之间的静态、冗余内容。实验表明，DTD实现了82.8%的视频token减少，同时在StreamingBench上保持了98%的性能，揭示了流媒体视频中超过80%的视觉内容是自然冗余的，无需语言指导。为了实现无缝的实时交互，我们提出了TimeChat-Online-139K，一个全面的流媒体视频数据集，具有多样化的交互模式，包括向后追踪、当前感知和未来响应场景。TimeChat-Online通过DTD持续监控视频场景转换，自然实现了主动响应能力。广泛的评估表明，TimeChat-Online在流媒体基准测试（StreamingBench和OvOBench）上表现出色，并在长视频任务（如Video-MME和MLVU）上保持了有竞争力的结果。

🔬 方法详解

问题定义：现有VideoLLM在处理流媒体视频时，由于需要处理大量的冗余帧，计算成本高昂，难以满足实时性要求。传统方法通常直接处理所有帧，忽略了流媒体视频中帧与帧之间存在大量冗余信息，导致效率低下。因此，如何有效去除冗余信息，降低计算复杂度，同时保证视频理解的准确性，是本文要解决的关键问题。

核心思路：本文的核心思路是借鉴人类视觉系统中的“变化盲视”现象，即人类对场景中细微变化的感知能力较弱。因此，视频流中连续帧之间的大部分静态内容可以被认为是冗余的，只需要关注发生显著变化的区域。通过选择性地丢弃冗余的视觉token，可以显著降低计算负担，同时保留关键信息。

技术框架：TimeChat-Online的整体框架包含视频编码器、差分Token丢弃（DTD）模块和语言模型。视频编码器将视频帧转换为视觉token序列。DTD模块根据帧间差异，动态地丢弃冗余token。最后，语言模型接收经过筛选的token序列，并根据用户查询生成响应。该框架支持实时视频流的输入和输出，能够进行连续的视频理解和交互。

关键创新：本文最重要的创新点在于提出的差分Token丢弃（DTD）模块。与传统的token选择方法不同，DTD模块不需要语言指导，而是直接基于视觉信息进行token选择。它通过计算帧间差异，自动识别并丢弃冗余的token，从而显著降低了计算复杂度。这种方法更适用于实时流媒体场景，因为它可以快速适应视频内容的变化，而无需额外的训练或调整。

关键设计：DTD模块的关键设计包括：1) 帧间差异计算方法，例如使用光流或像素差异来衡量帧间变化；2) Token丢弃策略，例如根据差异大小设置阈值，丢弃差异小于阈值的token；3) Token重组机制，确保丢弃token后，token序列的长度仍然满足语言模型的要求。此外，TimeChat-Online还引入了一个新的流媒体视频数据集TimeChat-Online-139K，用于训练和评估模型在实时交互场景下的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，TimeChat-Online的DTD模块能够实现82.8%的视频token减少，同时在StreamingBench上保持98%的性能。此外，TimeChat-Online在StreamingBench和OvOBench等流媒体基准测试上取得了优异的成绩，并在长视频任务（如Video-MME和MLVU）上保持了有竞争力的结果。这些结果表明，TimeChat-Online在实时视频理解方面具有显著的优势。

🎯 应用场景

TimeChat-Online具有广泛的应用前景，包括智能监控、远程协助、实时游戏解说、在线教育等。该技术可以应用于需要实时视频理解和交互的各种场景，例如，在智能监控中，可以自动识别异常事件并发出警报；在远程协助中，可以帮助专家远程诊断和解决问题；在在线教育中，可以提供个性化的学习体验。

📄 摘要（原文）

The rapid growth of online video platforms, particularly live streaming services, has created an urgent need for real-time video understanding systems. These systems must process continuous video streams and respond to user queries instantaneously, presenting unique challenges for current Video Large Language Models (VideoLLMs). While existing VideoLLMs excel at processing complete videos, they face significant limitations in streaming scenarios due to their inability to handle dense, redundant frames efficiently. We introduce TimeChat-Online, a novel online VideoLLM that revolutionizes real-time video interaction. At its core lies our innovative Differential Token Drop (DTD) module, which addresses the fundamental challenge of visual redundancy in streaming videos. Drawing inspiration from human visual perception's Change Blindness phenomenon, DTD preserves meaningful temporal changes while filtering out static, redundant content between frames. Remarkably, our experiments demonstrate that DTD achieves an 82.8% reduction in video tokens while maintaining 98% performance on StreamingBench, revealing that over 80% of visual content in streaming videos is naturally redundant without requiring language guidance. To enable seamless real-time interaction, we present TimeChat-Online-139K, a comprehensive streaming video dataset featuring diverse interaction patterns including backward-tracing, current-perception, and future-responding scenarios. TimeChat-Online's unique Proactive Response capability, naturally achieved through continuous monitoring of video scene transitions via DTD, sets it apart from conventional approaches. Our extensive evaluation demonstrates TimeChat-Online's superior performance on streaming benchmarks (StreamingBench and OvOBench) and maintaining competitive results on long-form video tasks such as Video-MME and MLVU.

TimeChat-Online: 80% Visual Tokens are Naturally Redundant in Streaming Videos

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理