CARES: Context-Aware Resolution Selector for VLMs

作者: Moshe Kimhi, Nimrod Shabtay, Raja Giryes, Chaim Baskin, Eli Schwartz

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-10-22

💡 一句话要点

提出CARES上下文感知分辨率选择器，降低VLM计算成本并保持性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 分辨率选择 上下文感知 计算效率 多模态学习

📋 核心要点

现有VLM为保证性能，通常采用高分辨率图像，导致计算成本和延迟过高，即使低分辨率图像已足够。
CARES通过预测图像-查询对所需的最小分辨率，在预处理阶段降低VLM的计算负担，同时保持性能。
实验表明，CARES在多个多模态基准测试中，能够显著降低计算量（高达80%），同时保持任务性能。

📝 摘要（中文）

大型视觉语言模型(VLM)通常以原始或高分辨率处理图像，以保持跨任务的有效性。这导致视觉tokens占据总tokens的97-99%，即使低分辨率图像就足够，也会导致高计算量和延迟。我们引入了CARES——上下文感知分辨率选择器，这是一个轻量级预处理模块，给定图像-查询对，预测最小的足够输入分辨率。CARES使用一个紧凑的VLM（350M）来提取特征，并预测目标预训练VLM的响应何时收敛到其正确回答能力的峰值。虽然CARES被训练为一组可选分辨率上的离散分类器，但它在推理时插值连续分辨率以进行细粒度控制。在跨越文档和自然图像的五个多模态基准测试以及不同的目标VLM中，CARES在保持任务性能的同时，将计算量降低高达80%。

🔬 方法详解

问题定义：现有的大型视觉语言模型（VLMs）为了保证在各种任务上的性能，通常直接使用高分辨率的图像作为输入。然而，这种做法导致视觉tokens的数量占据了总tokens的绝大部分（97%-99%），显著增加了计算成本和延迟。即使在某些情况下，低分辨率的图像已经足够完成任务，VLM仍然会处理高分辨率图像，造成了不必要的资源浪费。因此，如何根据图像和查询的内容，自适应地选择合适的输入分辨率，成为了一个亟待解决的问题。

核心思路：CARES的核心思路是学习一个轻量级的模块，该模块能够根据给定的图像-查询对，预测目标VLM能够正确回答问题所需的最小分辨率。通过在预处理阶段选择合适的分辨率，可以显著减少VLM的计算量，同时保持其性能。CARES的关键在于学习一个能够准确预测目标VLM性能的代理模型。

技术框架：CARES作为一个预处理模块，位于图像和查询输入到目标VLM之前。其整体流程如下：1) 输入图像和查询；2) CARES使用一个紧凑的VLM（350M）提取图像和查询的特征；3) CARES基于提取的特征，预测目标VLM能够正确回答问题所需的最小分辨率；4) 将图像缩放到预测的分辨率；5) 将缩放后的图像和查询输入到目标VLM进行处理。

关键创新：CARES的关键创新在于其上下文感知的分辨率选择机制。与以往直接使用固定分辨率的方法不同，CARES能够根据图像和查询的内容，动态地选择合适的分辨率。此外，CARES使用一个轻量级的VLM作为代理模型，避免了引入过多的计算开销。CARES还在推理时插值连续分辨率，实现了细粒度的控制。

关键设计：CARES使用一个紧凑的VLM（350M）作为特征提取器和分辨率预测器。CARES被训练为一个离散分类器，目标是预测一组可选分辨率中的最佳分辨率。为了实现更细粒度的控制，CARES在推理时对连续分辨率进行插值。损失函数的设计旨在鼓励CARES选择能够使目标VLM正确回答问题的最小分辨率。具体而言，损失函数可能包含一个分类损失项（例如交叉熵损失），用于衡量CARES预测分辨率的准确性，以及一个正则化项，用于惩罚选择过高分辨率的情况。

📊 实验亮点

实验结果表明，CARES在五个多模态基准测试中，能够显著降低VLM的计算量，同时保持任务性能。具体而言，CARES可以将计算量降低高达80%，而性能下降可以忽略不计。CARES在文档和自然图像上均表现出色，并且适用于不同的目标VLM。

🎯 应用场景

CARES具有广泛的应用前景，可以应用于各种需要处理图像和文本的多模态任务中，例如图像描述、视觉问答、文档理解等。通过降低VLM的计算成本，CARES可以使这些任务在资源受限的设备上运行，例如移动设备和嵌入式系统。此外，CARES还可以用于加速VLM的训练和推理过程，提高其效率。

📄 摘要（原文）

Large vision-language models (VLMs) commonly process images at native or high resolution to remain effective across tasks. This inflates visual tokens ofter to 97-99% of total tokens, resulting in high compute and latency, even when low-resolution images would suffice. We introduce \emph{CARES}-a \textbf{C}ontext-\textbf{A}ware \textbf{R}esolution \textbf{S}elector, a lightweight preprocessing module that, given an image-query pair, predicts the \emph{minimal} sufficient input resolution. CARES uses a compact VLM (350M) to extract features and predict when a target pretrained VLM's response converges to its peak ability to answer correctly. Though trained as a discrete classifier over a set of optional resolutions, CARES interpolates continuous resolutions at inference for fine-grained control. Across five multimodal benchmarks spanning documents and natural images, as well as diverse target VLMs, CARES preserves task performance while reducing compute by up to 80%.

CARES: Context-Aware Resolution Selector for VLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册