AdaCodec: A Predictive Visual Code for Video MLLMs
作者: Haowen Hou, Zhen Huang, Zheming Liang, Qingyi Si, Chenglin Li, Shuai Dong, Kele Shao, Ruilin Li, Dianyi Wang, Nan Duan, Jiaqi Wang
分类: cs.CV, cs.AI, cs.CL
发布日期: 2026-06-01
备注: 23 pages
💡 一句话要点
AdaCodec:面向视频MLLM的预测式视觉编码,显著降低计算成本并提升性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频多模态大语言模型 预测式编码 视频压缩 帧间预测 视觉token 长视频理解 计算效率
📋 核心要点
- 现有Video MLLM对视频帧独立编码,忽略了视频帧之间的时间冗余性,导致计算效率低下。
- AdaCodec通过预测式视觉编码,仅在必要时发送完整参考帧,其余帧编码帧间变化,减少视觉tokens数量。
- 实验表明,AdaCodec在降低计算成本的同时,在多个视频基准测试中超越了现有方法,尤其在长视频任务上。
📝 摘要(中文)
现有的视频多模态大语言模型(video MLLMs)通常将每个采样的帧编码为独立的RGB图像,导致视觉tokens重复出现在之前的帧中已有的内容。本文提出了一种更直接的视频接口:仅当场景无法从先前的上下文中很好地预测时,才发送完整的参考帧;否则,发送帧间变化的紧凑描述。我们将此接口称为预测式视觉编码,并将其实例化为视频MLLM的AdaCodec。AdaCodec仅在其条件预测成本较高时才将完整的视觉tokens用于参考帧;否则,它将帧间变化(包括运动和预测残差)编码为紧凑的P-tokens。在所有11个基准测试中,AdaCodec在匹配的视觉token预算下优于Qwen3-VL-8B的逐帧RGB基线。即使在1/7的预算下,具有32k tokens的AdaCodec在所有长视频基准测试中都超过了224k的基线;在五个通用视频基准测试中,它提高了平均分数,同时将time-to-first-token从9.26秒大幅降低到1.62秒。
🔬 方法详解
问题定义:现有Video MLLM通常将视频中的每一帧都当作独立的图像进行编码,忽略了视频帧之间存在的大量时间冗余信息。这种做法导致计算资源的浪费,尤其是在处理长视频时,效率问题更加突出。现有方法的痛点在于无法有效利用视频帧之间的时间相关性,导致视觉token数量过多,计算成本高昂。
核心思路:AdaCodec的核心思路是利用视频帧之间的时间相关性,采用预测式编码的方式。它不是对每一帧都进行完整编码,而是首先尝试根据之前的帧来预测当前帧。只有当预测的成本(例如,预测误差)超过一定阈值时,才对当前帧进行完整编码。否则,只编码当前帧与预测帧之间的差异(例如,运动信息和残差)。
技术框架:AdaCodec的整体框架包含以下几个主要模块:1) 参考帧选择模块:决定何时发送完整的参考帧。2) 预测模块:根据之前的帧预测当前帧。3) 编码模块:根据参考帧选择的结果,选择对完整帧进行编码,或者对帧间差异进行编码。4) 解码模块:将编码后的信息解码为视频帧。整个流程旨在减少视觉token的数量,从而降低计算成本。
关键创新:AdaCodec最重要的创新点在于其预测式编码的思想。与现有方法对每一帧都进行独立编码不同,AdaCodec充分利用了视频帧之间的时间相关性,通过预测和差异编码的方式,显著减少了视觉token的数量。这种方法在保证性能的同时,大大降低了计算成本。
关键设计:AdaCodec的关键设计包括:1) 参考帧选择策略:如何确定何时发送完整的参考帧,需要平衡预测的准确性和编码的效率。2) 预测模型的选择:可以使用各种视频预测模型,例如光流法、循环神经网络等。3) 差异编码方式:如何有效地编码帧间差异,例如运动矢量和残差。4) 损失函数的设计:需要设计合适的损失函数来训练预测模型和编码模块,以保证预测的准确性和编码的效率。具体的参数设置和网络结构取决于具体的应用场景和性能要求。
🖼️ 关键图片
📊 实验亮点
AdaCodec在11个基准测试中,在相同视觉token预算下,超越了Qwen3-VL-8B的逐帧RGB基线。在1/7的预算下(32k tokens),AdaCodec在所有长视频基准测试中超过了224k tokens的基线。在五个通用视频基准测试中,AdaCodec提高了平均分数,并将time-to-first-token从9.26秒大幅降低到1.62秒。
🎯 应用场景
AdaCodec在视频理解、视频问答、视频摘要等领域具有广泛的应用前景。它可以用于优化现有的视频MLLM,降低计算成本,提高处理长视频的能力。此外,AdaCodec还可以应用于视频监控、视频会议等实时视频处理场景,在有限的带宽下传输更高质量的视频。
📄 摘要(原文)
Video is temporally redundant: adjacent frames usually share most objects, background, and layout. Yet existing video multimodal large language models (video MLLMs) usually encode each sampled frame as an independent RGB image, causing visual tokens to repeat content already present in earlier frames. This suggests a more direct video interface: send a full reference frame only when the scene cannot be predicted well from prior context, and otherwise transmit a compact description of inter-frame changes. We call this interface a \emph{predictive visual code}, and instantiate it for video MLLMs as \textbf{AdaCodec}. AdaCodec spends full visual tokens on a reference frame only when its conditional predictive cost is high; otherwise, it encodes inter-frame changes, including motion and prediction residuals, as compact P-tokens. Across all eleven benchmarks, AdaCodec improves over the Qwen3-VL-8B per-frame RGB baseline at a matched visual-token budget. Even at $1/7$ the budget, AdaCodec with 32k tokens surpasses the 224k baseline on all long-video benchmarks; on five general-video benchmarks, it raises the average score while substantially cutting time-to-first-token from 9.26s to 1.62s.