Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

作者: Baifeng Shi, Stephanie Fu, Long Lian, Hanrong Ye, David Eigen, Aaron Reite, Boyi Li, Jan Kautz, Song Han, David M. Chan, Pavlo Molchanov, Trevor Darrell, Hongxu Yin

分类: cs.CV

发布日期: 2026-03-12

备注: CVPR 2026. Project page: https://autogaze.github.io/

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

AutoGaze：通过自回归注视实现高效可扩展的视频理解

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长视频理解 多模态学习 自回归模型 视频问答 视觉Transformer 高效计算 注意力机制

📋 核心要点

现有MLLM在处理长时高分辨率视频时，由于对所有像素同等对待，忽略了视频中存在的时空冗余，导致计算效率低下。
AutoGaze通过自回归的方式，选择最少的patches集合来重建视频，从而在去除冗余的同时保留关键信息，提高处理效率。
实验表明，AutoGaze显著减少了视觉tokens数量，加速了ViT和MLLM的处理速度，并在多个视频基准测试中取得了更好的性能。

📝 摘要（中文）

多模态大型语言模型(MLLM)在通用视频理解方面取得了进展，但难以处理长时、高分辨率视频，因为它们在视觉Transformer(ViT)或LLM中平等地处理每个像素，忽略了显著的时空冗余。我们引入AutoGaze，一个轻量级模块，在ViT或MLLM处理之前去除冗余patches。AutoGaze通过next-token预测和强化学习进行训练，自回归地选择一个最小的多尺度patches集合，该集合可以在用户指定的误差阈值内重建视频，从而消除冗余并保留信息。实验表明，AutoGaze减少了4x-100x的视觉tokens，并将ViT和MLLM加速高达19倍，从而能够将MLLM扩展到1K帧的4K分辨率视频，并在视频基准测试中取得优异的结果(例如，在VideoMME上达到67.0%)。此外，我们引入HLVid：第一个具有5分钟4K分辨率视频的高分辨率、长格式视频问答基准，其中使用AutoGaze扩展的MLLM比基线提高了10.1%，并且优于之前最好的MLLM 4.5%。

🔬 方法详解

问题定义：现有MLLM在处理长视频时，计算量巨大，难以扩展到高分辨率和长时序的视频。主要痛点在于视觉Transformer对所有像素同等处理，忽略了视频中大量的时空冗余信息，导致计算资源浪费。

核心思路：AutoGaze的核心思路是在视觉Transformer处理之前，通过一个轻量级的模块自动选择信息量最大的patches，去除冗余信息。这样可以减少需要处理的tokens数量，从而加速计算过程，并允许MLLM处理更长、更高分辨率的视频。

技术框架：AutoGaze模块位于ViT或MLLM的视觉编码器之前。它采用自回归的方式，逐步选择patches。整体流程包括：1) 输入视频帧；2) AutoGaze模块预测下一个需要关注的patch；3) 提取并处理选定的patch；4) 重复步骤2和3，直到满足预设的误差阈值或达到最大迭代次数。

关键创新：AutoGaze的关键创新在于其自回归的patch选择机制。与传统的均匀采样或随机采样不同，AutoGaze能够根据视频内容动态地选择信息量最大的patches，从而更有效地去除冗余信息。此外，使用next-token预测和强化学习训练AutoGaze，使其能够更好地适应不同的视频内容和任务。

关键设计：AutoGaze使用一个轻量级的神经网络作为控制器，用于预测下一个需要关注的patch的位置和尺度。该控制器通过next-token预测进行预训练，然后使用强化学习进行微调，以最大化性能指标（例如，视频重建质量或下游任务的准确率）。损失函数包括重建损失和强化学习奖励。具体网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

AutoGaze在多个视频基准测试中取得了显著的性能提升。例如，在VideoMME数据集上，AutoGaze达到了67.0%的准确率。此外，AutoGaze能够将MLLM扩展到1K帧的4K分辨率视频，并在HLVid数据集上比基线提高了10.1%，超过了之前最好的MLLM 4.5%。同时，AutoGaze能够将ViT和MLLM加速高达19倍，显著提高了计算效率。

🎯 应用场景

AutoGaze具有广泛的应用前景，包括视频监控、自动驾驶、视频会议、在线教育等领域。它可以帮助MLLM更高效地处理长时、高分辨率视频，从而实现更智能的视频分析和理解。例如，在视频监控中，AutoGaze可以帮助系统快速识别异常事件；在自动驾驶中，它可以帮助车辆更准确地感知周围环境。

📄 摘要（原文）

Multi-modal large language models (MLLMs) have advanced general-purpose video understanding but struggle with long, high-resolution videos -- they process every pixel equally in their vision transformers (ViTs) or LLMs despite significant spatiotemporal redundancy. We introduce AutoGaze, a lightweight module that removes redundant patches before processed by a ViT or an MLLM. Trained with next-token prediction and reinforcement learning, AutoGaze autoregressively selects a minimal set of multi-scale patches that can reconstruct the video within a user-specified error threshold, eliminating redundancy while preserving information. Empirically, AutoGaze reduces visual tokens by 4x-100x and accelerates ViTs and MLLMs by up to 19x, enabling scaling MLLMs to 1K-frame 4K-resolution videos and achieving superior results on video benchmarks (e.g., 67.0% on VideoMME). Furthermore, we introduce HLVid: the first high-resolution, long-form video QA benchmark with 5-minute 4K-resolution videos, where an MLLM scaled with AutoGaze improves over the baseline by 10.1% and outperforms the previous best MLLM by 4.5%. Project page: https://autogaze.github.io/.

Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理