VideoRouter: Query-Adaptive Dual Routing for Efficient Long-Video Understanding

📄 arXiv: 2605.05848v2 📥 PDF

作者: Kuanwei Lin, Wenhao Zhang, Ge Li

分类: cs.CV, cs.AI

发布日期: 2026-05-07 (更新: 2026-05-08)


💡 一句话要点

提出VideoRouter框架,通过查询自适应双重路由机制实现高效长视频理解

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长视频理解 多模态大模型 视觉Token压缩 查询自适应 计算效率优化 视频推理

📋 核心要点

  1. 长视频产生的超长视觉Token序列导致推理阶段内存占用过高及延迟问题,现有固定压缩策略难以适应视频中证据分布不均的特性。
  2. 提出VideoRouter框架,通过语义路由器与图像路由器协同,实现基于查询内容的自适应视觉证据分配与动态Token压缩。
  3. 实验表明,该方法在多个长视频基准测试中超越InternVL基线,在显著降低计算预算的同时,实现了高达67.9%的Token缩减。

📝 摘要(中文)

视频大模型(LVLMs)在处理长视频时面临严重的扩展性瓶颈:海量的视觉Token序列导致推理阶段内存消耗激增且延迟显著。现有压缩方法多采用固定的压缩策略,缺乏对查询内容的感知,难以应对视频中视觉证据分布不均的问题。为此,本文提出了VideoRouter,这是一个基于InternVL构建的查询自适应双重路由框架,旨在实现预算受限下的证据分配。该框架包含语义路由器(Semantic Router)以决定全局分配策略,以及图像路由器(Image Router)利用早期LLM层评估帧相关性。通过对不相关帧进行激进压缩并保留关键帧细节,该方法在VideoMME、MLVU和LongVideoBench等基准测试中表现优异,在保持或降低计算预算的前提下,实现了高达67.9%的Token缩减。

🔬 方法详解

问题定义:长视频理解中,视觉Token序列过长导致计算资源瓶颈。现有方法多采用统一的压缩策略,忽略了视频内容与用户查询之间的动态相关性,导致关键信息丢失或计算资源浪费。

核心思路:引入查询自适应机制,根据用户查询内容动态决定视频帧的保留策略。通过“双重路由”设计,在全局策略选择与局部帧重要性评估之间取得平衡,实现计算预算的最优分配。

技术框架:框架包含两个核心组件:语义路由器(Semantic Router)负责预测全局分配策略(如广度覆盖或高分辨率保留);图像路由器(Image Router)利用LLM早期层特征对每一帧进行相关性打分,从而指导Token的动态剪枝。

关键创新:首次将查询自适应路由引入长视频理解,通过分层路由机制实现了从全局策略到局部帧级别的细粒度控制,有效解决了长视频中证据稀疏分布带来的挑战。

关键设计:构建了两个专门的监督数据集:Video-QTR-10K用于训练分配策略,Video-FLR-200K用于训练帧相关性评估。通过这种监督学习方式,使路由器能够精准识别并保留对回答查询至关重要的视觉证据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VideoRouter在VideoMME、MLVU和LongVideoBench等主流长视频基准上表现卓越。在保持与InternVL基线相当或更低计算预算的情况下,该方法实现了高达67.9%的Token缩减,证明了其在复杂长视频任务中高效分配计算资源的优越性与鲁棒性。

🎯 应用场景

该技术广泛适用于长视频问答、视频内容检索、监控视频分析及自动驾驶场景下的长时序感知。通过显著降低推理成本,它使得在边缘设备或资源受限的云端部署高性能多模态大模型成为可能,对提升长视频处理的实时性与经济性具有重要价值。

📄 摘要(原文)

Video large multimodal models increasingly face a scalability bottleneck: long videos produce excessively long visual-token sequences, which sharply increase memory and latency during inference. While existing compression methods are effective in specific settings, most are either weakly query-aware or apply a fixed compression policy across frames, proving suboptimal when visual evidence is unevenly distributed over time. To address this, we present VideoRouter, a query-adaptive dual-router framework built on InternVL for budgeted evidence allocation. The Semantic Router predicts the dominant allocation policy, choosing between broad temporal coverage and adaptive high-resolution preservation, while the Image Router uses early LLM layers to score frame relevance. This enables aggressive compression on less relevant frames while preserving detail on critical evidence frames. To train both routers, we build Video-QTR-10K for allocation-policy supervision and Video-FLR-200K for frame-relevance supervision. Experiments on VideoMME, MLVU, and LongVideoBench show that VideoRouter consistently improves over the InternVL baseline under comparable or lower budgets, achieving up to a 67.9% token reduction.