ResAdapt: Adaptive Resolution for Efficient Multimodal Reasoning

作者: Huanxuan Liao, Zhongtao Jiang, Yupu Hao, Yuqiao Tan, Shizhu He, Jun Zhao, Kun Xu, Kang Liu

分类: cs.CV, cs.AI, cs.CL

发布日期: 2026-03-30

备注: work in progress

🔗 代码/项目: GITHUB

💡 一句话要点

ResAdapt：自适应分辨率提升多模态推理效率，解决视觉token增长瓶颈

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 自适应分辨率 视觉token压缩 成本感知策略优化 视频理解 上下文bandit 强化学习

📋 核心要点

现有MLLM方法在处理高分辨率和长时序视频时，视觉token数量激增，导致计算成本过高，难以兼顾效率与性能。
ResAdapt通过在编码前自适应地为每帧分配视觉预算，有效控制输入编码器的像素数量，从而缓解视觉token增长问题。
实验表明，ResAdapt在低预算下显著提升性能，尤其在推理密集型任务中，能够在相同预算下处理更多帧，并获得显著的性能提升。

📝 摘要（中文）

多模态大语言模型(MLLMs)通过提升输入保真度来增强视觉理解能力，但由此产生的视觉token增长使得同时维持高空间分辨率和长时间上下文变得难以实现。我们认为瓶颈不在于编码后表征的压缩，而在于编码器接收的像素量。为此，我们提出了ResAdapt，一种输入侧自适应框架，它学习在编码前每个帧应该接收多少视觉预算。ResAdapt将一个轻量级的分配器与一个未改变的MLLM骨干网络相结合，因此骨干网络保留了其原生的视觉token接口，同时接收经过算子转换的输入。我们将分配问题建模为一个上下文bandit，并使用成本感知策略优化(CAPO)来训练分配器，CAPO将稀疏的rollout反馈转换为稳定的精度-成本学习信号。在预算控制的视频问答、时间定位和图像推理任务中，ResAdapt改进了低预算操作点，并且通常位于或接近效率-精度前沿，在激进压缩下，推理密集型基准测试中增益最为明显。值得注意的是，ResAdapt在相同的视觉预算下支持多达16倍的帧数，同时提供超过15%的性能提升。

🔬 方法详解

问题定义：论文旨在解决多模态大语言模型（MLLMs）在处理高分辨率视频或长时序上下文时，由于视觉token数量爆炸式增长而导致的计算效率问题。现有方法通常侧重于压缩编码后的视觉表征，但忽略了输入编码器的像素量才是根本瓶颈。因此，如何在有限的计算预算下，自适应地调整输入分辨率，以达到最佳的性能-效率平衡，是本文要解决的核心问题。

核心思路：ResAdapt的核心思路是在编码器接收图像之前，通过一个轻量级的分配器（Allocator）来决定每帧图像应该分配多少视觉预算（即分辨率）。这个分配器会根据上下文信息，动态地调整每帧图像的分辨率，从而在保证关键信息不丢失的前提下，减少整体的视觉token数量。这样，MLLM骨干网络无需修改，即可处理不同分辨率的输入，从而实现高效的多模态推理。

技术框架：ResAdapt框架主要包含两个核心模块：Allocator（分配器）和MLLM Backbone（骨干网络）。Allocator负责根据上下文信息（例如，视频帧的内容、任务类型等）为每帧图像分配视觉预算。MLLM Backbone则是一个预训练好的多模态大语言模型，用于处理经过Allocator调整后的图像和文本输入，并完成相应的推理任务。整个流程可以概括为：输入视频/图像 -> Allocator (自适应分辨率调整) -> MLLM Backbone (多模态推理) -> 输出结果。

关键创新：ResAdapt的关键创新在于提出了一个输入侧的自适应分辨率调整框架。与以往侧重于压缩编码后表征的方法不同，ResAdapt直接控制输入编码器的像素量，从源头上解决了视觉token数量增长的问题。此外，ResAdapt还采用了一种成本感知策略优化（CAPO）方法来训练Allocator，该方法能够将稀疏的rollout反馈转换为稳定的精度-成本学习信号，从而有效地优化Allocator的性能。

关键设计：Allocator的设计至关重要，论文将其建模为一个上下文bandit问题，并使用强化学习方法进行训练。CAPO损失函数的设计考虑了精度和成本之间的平衡，鼓励Allocator在保证精度的前提下，尽可能地降低计算成本。具体的网络结构和参数设置在论文中有详细描述，包括Allocator的输入特征、输出维度、以及训练过程中的超参数等。此外，ResAdapt框架可以与各种现有的MLLM骨干网络无缝集成，具有良好的通用性和可扩展性。

📊 实验亮点

ResAdapt在视频问答、时间定位和图像推理等任务上进行了广泛的实验验证。结果表明，在相同的视觉预算下，ResAdapt能够支持多达16倍的帧数，并且在推理密集型基准测试中，性能提升超过15%。尤其是在低预算情况下，ResAdapt的性能优势更加明显，能够显著提升MLLM的效率和精度。

🎯 应用场景

ResAdapt技术可广泛应用于视频监控、自动驾驶、机器人导航等领域，尤其是在计算资源受限的边缘设备上。通过自适应调整输入分辨率，可以在保证推理精度的前提下，显著降低计算成本，从而实现更高效、更实时的多模态推理。该技术还有助于提升长视频理解能力，例如在视频摘要、视频问答等任务中，可以处理更长的视频序列，并提取更关键的信息。

📄 摘要（原文）

Multimodal Large Language Models (MLLMs) achieve stronger visual understanding by scaling input fidelity, yet the resulting visual token growth makes jointly sustaining high spatial resolution and long temporal context prohibitive. We argue that the bottleneck lies not in how post-encoding representations are compressed but in the volume of pixels the encoder receives, and address it with ResAdapt, an Input-side adaptation framework that learns how much visual budget each frame should receive before encoding. ResAdapt couples a lightweight Allocator with an unchanged MLLM backbone, so the backbone retains its native visual-token interface while receiving an operator-transformed input. We formulate allocation as a contextual bandit and train the Allocator with Cost-Aware Policy Optimization (CAPO), which converts sparse rollout feedback into a stable accuracy-cost learning signal. Across budget-controlled video QA, temporal grounding, and image reasoning tasks, ResAdapt improves low-budget operating points and often lies on or near the efficiency-accuracy frontier, with the clearest gains on reasoning-intensive benchmarks under aggressive compression. Notably, ResAdapt supports up to 16x more frames at the same visual budget while delivering over 15% performance gain. Code is available at https://github.com/Xnhyacinth/ResAdapt.

ResAdapt: Adaptive Resolution for Efficient Multimodal Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理