CoStream: Codec-Guided Resource-Efficient System for Video Streaming Analytics

作者: Yulin Zou, Yan Chen, Wenyan Chen, JooYoung Park, Shivaraman Nitin, Luo Tao, Francisco Romero, Dmitrii Ustiugov

分类: cs.DC, cs.CV, cs.LG

发布日期: 2026-04-07

备注: 18 pages, 34 figures

💡 一句话要点

CoStream：一种编解码器引导的资源高效视频流分析系统

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频流分析 视觉-语言模型 编解码器 资源优化 实时处理

📋 核心要点

现有视频流分析系统在利用视频冗余时存在局限性，未能充分挖掘端到端的优化机会，且冗余识别开销大。
CoStream利用视频编解码器提取的元数据作为低成本信号，统一优化视频解码、视觉处理和LLM预填充。
实验结果表明，CoStream在保持竞争力的准确性下，显著提升了吞吐量并降低了GPU计算需求。

📝 摘要（中文）

视频流分析是视觉-语言模型服务的关键工作负载，但多模态推理的高成本限制了其可扩展性。现有系统通过利用视频流中的时间和空间冗余来降低推理成本，但它们要么针对视觉Transformer（ViT），要么针对具有有限视野的LLM，从而未充分挖掘端到端的优化机会。此外，现有方法会产生显著的开销来识别冗余，无论是通过离线分析和训练，还是通过昂贵的在线计算，这使得它们不适合动态实时流。我们提出了CoStream，一种编解码器引导的流视频分析系统，它基于一个关键观察：视频编解码器已经提取了每个流的时间和空间结构，作为压缩的副产品。CoStream将这种编解码器元数据视为低成本的运行时信号，以统一视频解码、视觉处理和LLM预填充的优化，并将传输减少作为直接在压缩比特流上操作的固有优势。这驱动了ViT编码之前的编解码器引导的patch剪枝和LLM预填充期间的选择性键值缓存刷新，这两者都是完全在线的，不需要离线训练。实验表明，CoStream实现了高达3倍的吞吐量提升和高达87%的GPU计算减少，同时保持了具有竞争力的准确性，F1值仅下降0-8%。

🔬 方法详解

问题定义：现有视频流分析系统在处理大规模视频数据时面临计算资源瓶颈，尤其是在结合视觉-语言模型进行推理时。现有方法通常独立地优化视觉Transformer (ViT) 或大型语言模型 (LLM)，忽略了端到端的优化机会。此外，为了识别视频流中的冗余信息，现有方法需要进行离线训练或昂贵的在线计算，这使得它们难以适应动态变化的实时视频流。

核心思路：CoStream的核心思路是利用视频编解码器在压缩过程中已经提取的时间和空间结构信息（例如，运动向量、残差数据等）作为低成本的运行时信号，指导后续的视觉处理和语言模型推理。通过直接在压缩比特流上操作，CoStream避免了额外的冗余识别开销，并实现了端到端的优化。

技术框架：CoStream系统包含三个主要阶段：视频解码阶段、视觉处理阶段和LLM预填充阶段。在视频解码阶段，CoStream解析视频流的编解码器元数据。在视觉处理阶段，CoStream利用编解码器元数据指导patch剪枝，减少ViT编码的计算量。在LLM预填充阶段，CoStream利用编解码器元数据选择性地刷新键值缓存，减少LLM的计算量。整个流程是完全在线的，不需要离线训练。

关键创新：CoStream的关键创新在于将视频编解码器作为一种低成本的运行时信息源，用于指导视频流分析的各个阶段。与现有方法相比，CoStream避免了额外的冗余识别开销，实现了端到端的优化，并且能够适应动态变化的实时视频流。

关键设计：CoStream的关键设计包括：(1) 编解码器引导的patch剪枝：根据编解码器元数据，例如运动向量的大小，自适应地剪枝不重要的图像patch，减少ViT的计算量。(2) 编解码器引导的选择性键值缓存刷新：根据编解码器元数据，例如帧类型（I帧、P帧、B帧），选择性地刷新LLM的键值缓存，减少LLM的计算量。具体参数设置和阈值选择需要根据实际应用场景进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CoStream在多个视频数据集上实现了显著的性能提升。与最先进的基线方法相比，CoStream实现了高达3倍的吞吐量提升和高达87%的GPU计算减少，同时保持了具有竞争力的准确性，F1值仅下降0-8%。这些结果表明，CoStream是一种高效、实用的视频流分析系统。

🎯 应用场景

CoStream适用于各种需要实时视频流分析的应用场景，例如智能监控、自动驾驶、视频会议和直播平台。通过降低计算资源需求，CoStream可以帮助这些应用在边缘设备或云端实现更高效、更经济的视频分析服务，并支持更大规模的并发用户。

📄 摘要（原文）

Video streaming analytics is a crucial workload for vision-language model serving, but the high cost of multimodal inference limits scalability. Prior systems reduce inference cost by exploiting temporal and spatial redundancy in video streams, but they target either the vision transformer (ViT) or the LLM with a limited view, leaving end-to-end opportunities untapped. Moreover, existing methods incur significant overhead to identify redundancy, either through offline profiling and training or costly online computation, making them ill-suited for dynamic real-time streams. We present CoStream, a codec-guided streaming video analytics system built on a key observation that video codecs already extract the temporal and spatial structure of each stream as a byproduct of compression. CoStream treats this codec metadata as a low-cost runtime signal to unify optimization across video decoding, visual processing, and LLM prefilling, with transmission reduction as an inherent benefit of operating directly on compressed bitstreams. This drives codec-guided patch pruning before ViT encoding and selective key-value cache refresh during LLM prefilling, both of which are fully online and do not require offline training. Experiments show that CoStream achieves up to 3x throughput improvement and up to 87% GPU compute reduction over state-of-the-art baselines, while maintaining competitive accuracy with only 0-8% F1 drop.

CoStream: Codec-Guided Resource-Efficient System for Video Streaming Analytics

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理