HRScene: How Far Are VLMs from Effective High-Resolution Image Understanding?

📄 arXiv: 2504.18406v2 📥 PDF

作者: Yusen Zhang, Wenliang Zheng, Aashrith Madasu, Peng Shi, Ryo Kamoi, Hao Zhou, Zhuoyang Zou, Shu Zhao, Sarkar Snigdha Sarathi Das, Vipul Gupta, Xiaoxin Lu, Nan Zhang, Ranran Haoran Zhang, Avitej Iyer, Renze Lou, Wenpeng Yin, Rui Zhang

分类: cs.CL

发布日期: 2025-04-25 (更新: 2025-04-29)

备注: 22 pages, 8 figures


💡 一句话要点

HRScene:构建高分辨率图像理解的综合评测基准,揭示VLMs的局限性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 高分辨率图像理解 视觉大语言模型 评测基准 HRScene 区域发散 中间信息丢失 医学影像 遥感图像

📋 核心要点

  1. 现有视觉大语言模型(VLMs)在高分辨率图像(HRI)理解方面能力不足,缺乏统一的评测基准来全面评估其性能。
  2. 提出HRScene,一个包含25个真实世界数据集和2个合成数据集的综合性HRI评测基准,覆盖多种场景和分辨率。
  3. 实验结果表明,现有VLMs在HRScene上的表现与预期存在较大差距,尤其是在区域利用和信息整合方面存在明显问题。

📝 摘要(中文)

高分辨率图像(HRI)理解旨在处理具有大量像素的图像,例如病理图像和农业航拍图像,它们的像素数量可能超过100万。视觉大语言模型(VLMs)据称可以处理HRI,但缺乏一个全面的基准来评估VLMs对HRI的理解能力。为了弥补这一差距,我们引入了HRScene,这是一个用于HRI理解的新型统一基准,包含丰富的场景。HRScene整合了25个真实世界数据集和2个合成诊断数据集,分辨率范围从1,024×1,024到35,503×26,627。HRScene由10名研究生级别的标注员收集和重新标注,涵盖25个场景,从显微图像到放射影像、街景、远景照片和望远镜图像。它包括真实世界物体的HRI、扫描文档和复合多图像。两个诊断评估数据集通过将目标图像与标准答案和干扰图像以不同的顺序组合来合成,评估模型对HRI区域的利用程度。我们进行了涉及28个VLMs的广泛实验,包括Gemini 2.0 Flash和GPT-4o。在HRScene上的实验表明,当前的VLMs在真实世界任务上的平均准确率约为50%,揭示了HRI理解方面的显著差距。合成数据集的结果表明,VLMs难以有效利用HRI区域,表现出显著的区域发散和中间信息丢失,为未来的研究提供了启示。

🔬 方法详解

问题定义:现有VLMs声称具备处理高分辨率图像的能力,但缺乏系统性的评估方法来验证其在高分辨率图像理解方面的真实水平。现有方法难以有效处理高分辨率图像中的复杂场景和细粒度信息,导致性能瓶颈。

核心思路:构建一个包含多样化场景和高分辨率图像的综合性评测基准,通过评估VLMs在真实世界和合成诊断任务上的表现,揭示其在高分辨率图像理解方面的局限性,并为未来的研究提供方向。

技术框架:HRScene基准包含以下几个关键组成部分:1) 25个真实世界数据集,涵盖从显微图像到望远镜图像的多种场景;2) 2个合成诊断数据集,用于评估模型对HRI区域的利用程度;3) 统一的评估指标,用于衡量模型在不同任务上的性能。

关键创新:HRScene是首个针对VLMs高分辨率图像理解能力的综合性评测基准,它不仅包含真实世界数据,还设计了合成诊断任务,能够更全面地评估模型在处理高分辨率图像时的区域利用和信息整合能力。

关键设计:合成诊断数据集通过将目标图像与标准答案和干扰图像以不同的顺序组合来生成,从而评估模型对HRI区域的利用程度。评估指标包括准确率等,用于衡量模型在不同任务上的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有VLMs在HRScene真实世界任务上的平均准确率约为50%,远低于预期。在合成数据集上,VLMs表现出显著的区域发散和中间信息丢失问题,表明其难以有效利用高分辨率图像中的信息。Gemini 2.0 Flash和GPT-4o等先进模型也未能充分解决这些问题,揭示了当前VLMs在高分辨率图像理解方面的局限性。

🎯 应用场景

该研究成果可应用于医学影像分析、遥感图像处理、文档扫描识别等领域。通过HRScene基准,可以更有效地评估和改进VLMs在高分辨率图像理解方面的能力,从而推动相关技术在实际应用中的发展,例如辅助医生进行疾病诊断,提高遥感图像的解译精度,以及提升文档扫描识别的准确率。

📄 摘要(原文)

High-resolution image (HRI) understanding aims to process images with a large number of pixels, such as pathological images and agricultural aerial images, both of which can exceed 1 million pixels. Vision Large Language Models (VLMs) can allegedly handle HRIs, however, there is a lack of a comprehensive benchmark for VLMs to evaluate HRI understanding. To address this gap, we introduce HRScene, a novel unified benchmark for HRI understanding with rich scenes. HRScene incorporates 25 real-world datasets and 2 synthetic diagnostic datasets with resolutions ranging from 1,024 $\times$ 1,024 to 35,503 $\times$ 26,627. HRScene is collected and re-annotated by 10 graduate-level annotators, covering 25 scenarios, ranging from microscopic to radiology images, street views, long-range pictures, and telescope images. It includes HRIs of real-world objects, scanned documents, and composite multi-image. The two diagnostic evaluation datasets are synthesized by combining the target image with the gold answer and distracting images in different orders, assessing how well models utilize regions in HRI. We conduct extensive experiments involving 28 VLMs, including Gemini 2.0 Flash and GPT-4o. Experiments on HRScene show that current VLMs achieve an average accuracy of around 50% on real-world tasks, revealing significant gaps in HRI understanding. Results on synthetic datasets reveal that VLMs struggle to effectively utilize HRI regions, showing significant Regional Divergence and lost-in-middle, shedding light on future research.