A Training-Free, Task-Agnostic Framework for Enhancing MLLM Performance on High-Resolution Images
作者: Jaeseong Lee, Yeeun Choi, Heechan Choi, Hanjung Kim, Seonjoo Kim
分类: cs.CV, cs.AI
发布日期: 2025-07-14
备注: Accepted at CVPR 2025 Workshop on Emergent Visual Abilities and Limits of Foundation Models
🔗 代码/项目: GITHUB
💡 一句话要点
提出ECP框架,无需训练提升MLLM在高分辨率图像上的细粒度定位和推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 高分辨率图像 细粒度定位 无需训练 视觉语言理解
📋 核心要点
- MLLM在处理高分辨率图像时,由于训练和测试分辨率的差异,难以进行细粒度的定位和推理。
- ECP框架通过先提取候选区域,再进行预测的两阶段方法,利用下采样图像的粗略定位信息,保留高分辨率图像的细节。
- 实验表明,ECP在4K GUI grounding和4K/8K MLLM感知任务上,显著提升了MLLM的性能。
📝 摘要(中文)
多模态大型语言模型(MLLM)在视觉-语言理解、推理和生成方面表现出卓越的能力。然而,它们在需要高分辨率图像中的细粒度定位和推理的任务中表现不佳。这种限制源于MLLM使用固定图像分辨率进行微调,以与MLLM中使用的预训练图像编码器对齐。因此,直接将高分辨率图像输入MLLM会导致泛化能力差,这是由于训练-测试分辨率不一致造成的;而下采样这些图像虽然确保了一致性,但会损害细粒度的视觉细节,最终降低性能。为了解决这个挑战,我们提出Extract Candidate then Predict (ECP),这是一个新颖的、无需训练的、任务无关的两阶段框架,旨在提高MLLM在高分辨率图像上的性能。ECP背后的关键直觉是,虽然MLLM在高分辨率图像上表现不佳,但它们在下采样图像上的预测仍然包含隐式的定位线索。通过首先使用粗略预测识别候选区域,然后基于候选区域预测最终输出,ECP有效地保留了细粒度的细节,同时减轻了高分辨率数据带来的挑战。我们在4K GUI grounding和4K、8K MLLM感知上验证了我们的框架,与基线相比,分别实现了+21.3%、+5.8%、+5.2%的绝对改进,证明了其有效性。
🔬 方法详解
问题定义:论文旨在解决多模态大型语言模型(MLLMs)在高分辨率图像上表现不佳的问题。现有方法要么直接输入高分辨率图像导致泛化性差,要么对图像进行下采样损失细节信息,都无法有效利用高分辨率图像中的细粒度信息。
核心思路:论文的核心思路是利用MLLM在下采样图像上的粗略预测结果,提取可能包含目标对象的候选区域,然后在这些候选区域上进行更精细的预测。这样既避免了直接处理高分辨率图像的困难,又保留了图像的细节信息。
技术框架:ECP框架包含两个主要阶段:候选区域提取阶段和预测阶段。在候选区域提取阶段,首先将高分辨率图像下采样,然后输入MLLM进行粗略预测。基于粗略预测的结果,提取包含目标对象的候选区域。在预测阶段,将原始高分辨率图像中对应的候选区域裁剪出来,输入MLLM进行精细预测,得到最终结果。
关键创新:ECP框架的关键创新在于其两阶段的设计,它巧妙地结合了下采样图像的粗略定位信息和原始高分辨率图像的细节信息。此外,ECP是一个无需训练的框架,可以直接应用于现有的MLLM,无需额外的训练成本。
关键设计:ECP框架的关键设计包括:(1) 如何根据粗略预测结果有效地提取候选区域;(2) 如何将候选区域裁剪出来并输入MLLM进行预测。论文中可能使用了启发式规则或简单的图像处理技术来提取候选区域,并直接使用MLLM进行预测,没有涉及复杂的网络结构或损失函数。
🖼️ 关键图片
📊 实验亮点
ECP框架在4K GUI grounding任务上取得了21.3%的绝对提升,在4K和8K MLLM感知任务上分别取得了5.8%和5.2%的绝对提升。这些结果表明,ECP能够有效地提高MLLM在高分辨率图像上的性能,并且具有良好的泛化能力。
🎯 应用场景
该研究成果可广泛应用于需要处理高分辨率图像的多模态任务中,例如:自动驾驶中的交通标志识别、医学影像分析中的病灶检测、遥感图像分析中的目标识别等。该方法无需训练的特性,使其能够快速部署到各种应用场景中,具有很高的实际应用价值和潜力。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities in vision-language understanding, reasoning, and generation. However, they struggle with tasks requiring fine-grained localization and reasoning in high-resolution images. This constraint stems from the fact that MLLMs are fine-tuned with fixed image resolution to align with the pre-trained image encoder used in MLLM. Consequently, feeding high-resolution images directly into MLLMs leads to poor generalization due to a train-test resolution discrepancy, while downsampling these images-although ensuring consistency-compromises fine-grained visual details and ultimately degrades performance. To address this challenge, we propose Extract Candidate then Predict (ECP), a novel training-free, task-agnostic two-stage framework designed to enhance MLLM performance on high-resolution images. The key intuition behind ECP is that while MLLMs struggle with high-resolution images, their predictions on downsampled images still contain implicit localization cues. By first identifying candidate region using the coarse prediction and then predicting the final output based on candidate region, ECP effectively preserves fine-grained details while mitigating the challenges posed by high-resolution data. We validate our framework on 4K GUI grounding and 4K, 8K MLLM perception, achieving +21.3%, +5.8%, +5.2% absolute improvement compared to baseline respectively, demonstrating its effectiveness. Code is available at https://github.com/yenncye/ECP.