Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

📄 arXiv: 2603.12254v1 📥 PDF

作者: Baifeng Shi, Stephanie Fu, Long Lian, Hanrong Ye, David Eigen, Aaron Reite, Boyi Li, Jan Kautz, Song Han, David M. Chan, Pavlo Molchanov, Trevor Darrell, Hongxu Yin

分类: cs.CV

发布日期: 2026-03-12

备注: CVPR 2026. Project page: https://autogaze.github.io/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

AutoGaze:通过自回归注视实现高效可扩展的视频理解

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长视频理解 多模态学习 自回归模型 视频问答 视觉Transformer 高效计算 注意力机制

📋 核心要点

  1. 现有MLLM在处理长时高分辨率视频时,由于对所有像素同等对待,忽略了视频中存在的时空冗余,导致计算效率低下。
  2. AutoGaze通过自回归的方式,选择最少的patches集合来重建视频,从而在去除冗余的同时保留关键信息,提高处理效率。
  3. 实验表明,AutoGaze显著减少了视觉tokens数量,加速了ViT和MLLM的处理速度,并在多个视频基准测试中取得了更好的性能。

📝 摘要(中文)

多模态大型语言模型(MLLM)在通用视频理解方面取得了进展,但难以处理长时、高分辨率视频,因为它们在视觉Transformer(ViT)或LLM中平等地处理每个像素,忽略了显著的时空冗余。我们引入AutoGaze,一个轻量级模块,在ViT或MLLM处理之前去除冗余patches。AutoGaze通过next-token预测和强化学习进行训练,自回归地选择一个最小的多尺度patches集合,该集合可以在用户指定的误差阈值内重建视频,从而消除冗余并保留信息。实验表明,AutoGaze减少了4x-100x的视觉tokens,并将ViT和MLLM加速高达19倍,从而能够将MLLM扩展到1K帧的4K分辨率视频,并在视频基准测试中取得优异的结果(例如,在VideoMME上达到67.0%)。此外,我们引入HLVid:第一个具有5分钟4K分辨率视频的高分辨率、长格式视频问答基准,其中使用AutoGaze扩展的MLLM比基线提高了10.1%,并且优于之前最好的MLLM 4.5%。

🔬 方法详解

问题定义:现有MLLM在处理长视频时,计算量巨大,难以扩展到高分辨率和长时序的视频。主要痛点在于视觉Transformer对所有像素同等处理,忽略了视频中大量的时空冗余信息,导致计算资源浪费。

核心思路:AutoGaze的核心思路是在视觉Transformer处理之前,通过一个轻量级的模块自动选择信息量最大的patches,去除冗余信息。这样可以减少需要处理的tokens数量,从而加速计算过程,并允许MLLM处理更长、更高分辨率的视频。

技术框架:AutoGaze模块位于ViT或MLLM的视觉编码器之前。它采用自回归的方式,逐步选择patches。整体流程包括:1) 输入视频帧;2) AutoGaze模块预测下一个需要关注的patch;3) 提取并处理选定的patch;4) 重复步骤2和3,直到满足预设的误差阈值或达到最大迭代次数。

关键创新:AutoGaze的关键创新在于其自回归的patch选择机制。与传统的均匀采样或随机采样不同,AutoGaze能够根据视频内容动态地选择信息量最大的patches,从而更有效地去除冗余信息。此外,使用next-token预测和强化学习训练AutoGaze,使其能够更好地适应不同的视频内容和任务。

关键设计:AutoGaze使用一个轻量级的神经网络作为控制器,用于预测下一个需要关注的patch的位置和尺度。该控制器通过next-token预测进行预训练,然后使用强化学习进行微调,以最大化性能指标(例如,视频重建质量或下游任务的准确率)。损失函数包括重建损失和强化学习奖励。具体网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AutoGaze在多个视频基准测试中取得了显著的性能提升。例如,在VideoMME数据集上,AutoGaze达到了67.0%的准确率。此外,AutoGaze能够将MLLM扩展到1K帧的4K分辨率视频,并在HLVid数据集上比基线提高了10.1%,超过了之前最好的MLLM 4.5%。同时,AutoGaze能够将ViT和MLLM加速高达19倍,显著提高了计算效率。

🎯 应用场景

AutoGaze具有广泛的应用前景,包括视频监控、自动驾驶、视频会议、在线教育等领域。它可以帮助MLLM更高效地处理长时、高分辨率视频,从而实现更智能的视频分析和理解。例如,在视频监控中,AutoGaze可以帮助系统快速识别异常事件;在自动驾驶中,它可以帮助车辆更准确地感知周围环境。

📄 摘要(原文)

Multi-modal large language models (MLLMs) have advanced general-purpose video understanding but struggle with long, high-resolution videos -- they process every pixel equally in their vision transformers (ViTs) or LLMs despite significant spatiotemporal redundancy. We introduce AutoGaze, a lightweight module that removes redundant patches before processed by a ViT or an MLLM. Trained with next-token prediction and reinforcement learning, AutoGaze autoregressively selects a minimal set of multi-scale patches that can reconstruct the video within a user-specified error threshold, eliminating redundancy while preserving information. Empirically, AutoGaze reduces visual tokens by 4x-100x and accelerates ViTs and MLLMs by up to 19x, enabling scaling MLLMs to 1K-frame 4K-resolution videos and achieving superior results on video benchmarks (e.g., 67.0% on VideoMME). Furthermore, we introduce HLVid: the first high-resolution, long-form video QA benchmark with 5-minute 4K-resolution videos, where an MLLM scaled with AutoGaze improves over the baseline by 10.1% and outperforms the previous best MLLM by 4.5%. Project page: https://autogaze.github.io/.