CARES: Context-Aware Resolution Selector for VLMs

📄 arXiv: 2510.19496v1 📥 PDF

作者: Moshe Kimhi, Nimrod Shabtay, Raja Giryes, Chaim Baskin, Eli Schwartz

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-10-22


💡 一句话要点

提出CARES上下文感知分辨率选择器,降低VLM计算成本并保持性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 分辨率选择 上下文感知 计算效率 多模态学习

📋 核心要点

  1. 现有VLM为保证性能,通常采用高分辨率图像,导致计算成本和延迟过高,即使低分辨率图像已足够。
  2. CARES通过预测图像-查询对所需的最小分辨率,在预处理阶段降低VLM的计算负担,同时保持性能。
  3. 实验表明,CARES在多个多模态基准测试中,能够显著降低计算量(高达80%),同时保持任务性能。

📝 摘要(中文)

大型视觉语言模型(VLM)通常以原始或高分辨率处理图像,以保持跨任务的有效性。这导致视觉tokens占据总tokens的97-99%,即使低分辨率图像就足够,也会导致高计算量和延迟。我们引入了CARES——上下文感知分辨率选择器,这是一个轻量级预处理模块,给定图像-查询对,预测最小的足够输入分辨率。CARES使用一个紧凑的VLM(350M)来提取特征,并预测目标预训练VLM的响应何时收敛到其正确回答能力的峰值。虽然CARES被训练为一组可选分辨率上的离散分类器,但它在推理时插值连续分辨率以进行细粒度控制。在跨越文档和自然图像的五个多模态基准测试以及不同的目标VLM中,CARES在保持任务性能的同时,将计算量降低高达80%。

🔬 方法详解

问题定义:现有的大型视觉语言模型(VLMs)为了保证在各种任务上的性能,通常直接使用高分辨率的图像作为输入。然而,这种做法导致视觉tokens的数量占据了总tokens的绝大部分(97%-99%),显著增加了计算成本和延迟。即使在某些情况下,低分辨率的图像已经足够完成任务,VLM仍然会处理高分辨率图像,造成了不必要的资源浪费。因此,如何根据图像和查询的内容,自适应地选择合适的输入分辨率,成为了一个亟待解决的问题。

核心思路:CARES的核心思路是学习一个轻量级的模块,该模块能够根据给定的图像-查询对,预测目标VLM能够正确回答问题所需的最小分辨率。通过在预处理阶段选择合适的分辨率,可以显著减少VLM的计算量,同时保持其性能。CARES的关键在于学习一个能够准确预测目标VLM性能的代理模型。

技术框架:CARES作为一个预处理模块,位于图像和查询输入到目标VLM之前。其整体流程如下:1) 输入图像和查询;2) CARES使用一个紧凑的VLM(350M)提取图像和查询的特征;3) CARES基于提取的特征,预测目标VLM能够正确回答问题所需的最小分辨率;4) 将图像缩放到预测的分辨率;5) 将缩放后的图像和查询输入到目标VLM进行处理。

关键创新:CARES的关键创新在于其上下文感知的分辨率选择机制。与以往直接使用固定分辨率的方法不同,CARES能够根据图像和查询的内容,动态地选择合适的分辨率。此外,CARES使用一个轻量级的VLM作为代理模型,避免了引入过多的计算开销。CARES还在推理时插值连续分辨率,实现了细粒度的控制。

关键设计:CARES使用一个紧凑的VLM(350M)作为特征提取器和分辨率预测器。CARES被训练为一个离散分类器,目标是预测一组可选分辨率中的最佳分辨率。为了实现更细粒度的控制,CARES在推理时对连续分辨率进行插值。损失函数的设计旨在鼓励CARES选择能够使目标VLM正确回答问题的最小分辨率。具体而言,损失函数可能包含一个分类损失项(例如交叉熵损失),用于衡量CARES预测分辨率的准确性,以及一个正则化项,用于惩罚选择过高分辨率的情况。

📊 实验亮点

实验结果表明,CARES在五个多模态基准测试中,能够显著降低VLM的计算量,同时保持任务性能。具体而言,CARES可以将计算量降低高达80%,而性能下降可以忽略不计。CARES在文档和自然图像上均表现出色,并且适用于不同的目标VLM。

🎯 应用场景

CARES具有广泛的应用前景,可以应用于各种需要处理图像和文本的多模态任务中,例如图像描述、视觉问答、文档理解等。通过降低VLM的计算成本,CARES可以使这些任务在资源受限的设备上运行,例如移动设备和嵌入式系统。此外,CARES还可以用于加速VLM的训练和推理过程,提高其效率。

📄 摘要(原文)

Large vision-language models (VLMs) commonly process images at native or high resolution to remain effective across tasks. This inflates visual tokens ofter to 97-99% of total tokens, resulting in high compute and latency, even when low-resolution images would suffice. We introduce \emph{CARES}-a \textbf{C}ontext-\textbf{A}ware \textbf{R}esolution \textbf{S}elector, a lightweight preprocessing module that, given an image-query pair, predicts the \emph{minimal} sufficient input resolution. CARES uses a compact VLM (350M) to extract features and predict when a target pretrained VLM's response converges to its peak ability to answer correctly. Though trained as a discrete classifier over a set of optional resolutions, CARES interpolates continuous resolutions at inference for fine-grained control. Across five multimodal benchmarks spanning documents and natural images, as well as diverse target VLMs, CARES preserves task performance while reducing compute by up to 80%.