Q-Zoom: Query-Aware Adaptive Perception for Efficient Multimodal Large Language Models

作者: Yuheng Shi, Xiaohuan Pei, Linfeng Wen, Minjing Dong, Chang Xu

分类: cs.CV, cs.AI

发布日期: 2026-04-08

备注: 16 pages, 9 figures

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

Q-Zoom：面向高效多模态大语言模型的查询感知自适应感知框架

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 查询感知 自适应感知 区域提议网络 自蒸馏 高分辨率 计算效率

📋 核心要点

现有MLLM在高分辨率视觉输入下，全局缩放导致计算量随分辨率平方增长，效率低下，且忽略了空间稀疏性和查询意图。
Q-Zoom提出了一种查询感知的自适应高分辨率感知框架，通过动态门控网络和自蒸馏区域提议网络实现高效的粗到细处理。
实验表明，Q-Zoom在多个基准测试中显著提高了推理速度，同时保持甚至超过了基线的准确率，建立了性能帕累托前沿。

📝 摘要（中文）

多模态大语言模型(MLLMs)需要高分辨率视觉输入来处理文档理解和密集场景感知等细粒度任务。然而，现有的全局分辨率缩放方法不加区分地将视觉冗余tokens填充到二次自注意力机制中，严重限制了推理吞吐量，同时忽略了空间稀疏性和查询意图。为了解决这个问题，我们提出了Q-Zoom，一个查询感知的自适应高分辨率感知框架，以高效的粗到细的方式运行。首先，一个轻量级的动态门控网络在粗略的全局特征足够时安全地绕过高分辨率处理。其次，对于需要细粒度感知的查询，一个自蒸馏区域提议网络(SD-RPN)直接从中间特征空间精确定位任务相关的感兴趣区域(RoI)。为了有效地优化这些模块，门控网络使用一致性感知生成策略来导出确定性路由标签，而SD-RPN采用完全自监督的蒸馏范式。然后，连续的时空对齐方案和有针对性的微调无缝地将密集的局部RoI与粗略的全局布局融合。大量的实验表明，Q-Zoom建立了一个主要的帕累托前沿。以Qwen2.5-VL-7B为主要测试平台，Q-Zoom在文档和OCR基准测试中加速推理2.52倍，在高分辨率场景中加速4.39倍，同时匹配基线的峰值精度。此外，当配置为最大感知保真度时，Q-Zoom在这些基准测试中分别超过基线的峰值性能1.1%和8.1%。这些强大的改进无缝地转移到Qwen3-VL、LLaVA和新兴的基于强化学习的图像思考模型。

🔬 方法详解

问题定义：现有的多模态大语言模型在处理需要高分辨率视觉输入的任务时，例如文档理解和密集场景感知，面临着计算效率的挑战。全局分辨率缩放方法会不加区分地处理所有视觉tokens，导致计算量巨大，尤其是在自注意力机制中。此外，这些方法忽略了图像中的空间稀疏性，即并非所有区域都包含重要信息，以及查询意图，即不同的查询可能只需要关注图像的不同部分。

核心思路：Q-Zoom的核心思路是根据查询的需求，自适应地调整视觉输入的处理方式。它采用一种粗到细的策略，首先使用轻量级的全局特征进行初步判断，如果全局特征足以满足查询的需求，则跳过高分辨率处理。如果需要更细粒度的信息，则使用区域提议网络(RPN)来定位图像中与查询相关的感兴趣区域(RoI)，并只对这些区域进行高分辨率处理。

技术框架：Q-Zoom的整体框架包含以下几个主要模块：1) 动态门控网络(Dynamic Gating Network)：用于判断是否需要进行高分辨率处理。2) 自蒸馏区域提议网络(SD-RPN)：用于定位图像中与查询相关的RoI。3) 连续时空对齐(Continuous Spatio-Temporal Alignment)：用于将局部RoI特征与全局布局特征对齐。4) 有针对性的微调(Targeted Fine-tuning)：用于优化整个模型。流程上，模型首先接收查询和视觉输入，动态门控网络根据查询和全局视觉特征决定是否需要进行高分辨率处理。如果需要，SD-RPN会生成RoI提议，然后通过时空对齐将RoI特征与全局特征融合，最后进行微调。

关键创新：Q-Zoom的关键创新在于其查询感知的自适应感知机制。与传统的全局分辨率缩放方法不同，Q-Zoom能够根据查询的需求，动态地调整视觉输入的处理方式，从而显著提高计算效率。此外，自蒸馏区域提议网络(SD-RPN)的自监督训练方式，避免了对大量标注数据的依赖。

关键设计：动态门控网络使用一致性感知生成策略来生成确定性的路由标签，从而优化门控网络的训练。SD-RPN采用完全自监督的蒸馏范式，利用模型自身的预测结果作为监督信号，从而避免了对人工标注的依赖。连续时空对齐方案确保了局部RoI特征与全局布局特征的有效融合。此外，论文还采用了有针对性的微调策略，以进一步优化模型的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Q-Zoom在Qwen2.5-VL-7B上，在文档和OCR基准测试中加速推理2.52倍，在高分辨率场景中加速4.39倍，同时匹配基线的峰值精度。当配置为最大感知保真度时，Q-Zoom在这些基准测试中分别超过基线的峰值性能1.1%和8.1%。这些改进可以无缝迁移到Qwen3-VL、LLaVA等其他模型。

🎯 应用场景

Q-Zoom具有广泛的应用前景，包括文档理解、OCR、密集场景感知等需要高分辨率视觉输入的任务。该技术可以应用于智能文档处理、自动驾驶、机器人导航、图像搜索等领域，提高系统的效率和准确性。此外，Q-Zoom的自适应感知机制也可以推广到其他多模态任务中，例如视频理解和语音识别。

📄 摘要（原文）

MLLMs require high-resolution visual inputs for fine-grained tasks like document understanding and dense scene perception. However, current global resolution scaling paradigms indiscriminately flood the quadratic self-attention mechanism with visually redundant tokens, severely bottlenecking inference throughput while ignoring spatial sparsity and query intent. To overcome this, we propose Q-Zoom, a query-aware adaptive high-resolution perception framework that operates in an efficient coarse-to-fine manner. First, a lightweight Dynamic Gating Network safely bypasses high-resolution processing when coarse global features suffice. Second, for queries demanding fine-grained perception, a Self-Distilled Region Proposal Network (SD-RPN) precisely localizes the task-relevant Region-of-Interest (RoI) directly from intermediate feature spaces. To optimize these modules efficiently, the gating network uses a consistency-aware generation strategy to derive deterministic routing labels, while the SD-RPN employs a fully self-supervised distillation paradigm. A continuous spatio-temporal alignment scheme and targeted fine-tuning then seamlessly fuse the dense local RoI with the coarse global layout. Extensive experiments demonstrate that Q-Zoom establishes a dominant Pareto frontier. Using Qwen2.5-VL-7B as a primary testbed, Q-Zoom accelerates inference by 2.52 times on Document & OCR benchmarks and 4.39 times in High-Resolution scenarios while matching the baseline's peak accuracy. Furthermore, when configured for maximum perceptual fidelity, Q-Zoom surpasses the baseline's peak performance by 1.1% and 8.1% on these respective benchmarks. These robust improvements transfer seamlessly to Qwen3-VL, LLaVA, and emerging RL-based thinking-with-image models. Project page is available at https://yuhengsss.github.io/Q-Zoom/.

Q-Zoom: Query-Aware Adaptive Perception for Efficient Multimodal Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理