HueManity: Probing Fine-Grained Visual Perception in MLLMs
作者: Rynaa Grover, Jayant Sravan Tamarapalli, Sahiti Yerramilli, Nilay Pande
分类: cs.CV, cs.AI, cs.LG
发布日期: 2025-05-31 (更新: 2025-09-12)
期刊: ICML 2025 Workshop on Assessing World Models
DOI: 10.48550/arXiv.2506.03194
💡 一句话要点
HueManity:探究多模态大语言模型在细粒度视觉感知上的能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 视觉感知 基准数据集 模式识别 石原测试 细粒度视觉 性能评估
📋 核心要点
- 现有MLLMs在高层次视觉推理表现良好,但在细粒度视觉感知任务上存在明显不足,难以达到人类水平。
- HueManity基准数据集通过石原测试风格的点状图案嵌入字母数字字符串,旨在评估MLLMs的精确模式识别能力。
- 实验结果表明,现有MLLMs在HueManity数据集上的性能远低于人类和传统计算机视觉模型,存在显著的感知差距。
📝 摘要(中文)
多模态大语言模型(MLLMs)在高层次视觉推理方面表现出色,但在细致的感知任务上的性能却出人意料地有限。我们提出了HueManity,这是一个旨在评估MLLMs视觉感知的基准。该数据集包含83,850张图像,这些图像以石原测试风格的点状图案嵌入了双字符字母数字字符串,对模型在精确模式识别方面提出了挑战。我们对九个最先进的MLLMs在HueManity上的评估表明,与人类和传统计算机视觉基线相比,存在显著的性能差距。性能最佳的MLLM在数字“简单”任务上达到了33.6%的准确率,在字母数字“困难”任务上达到了惊人的3%。相比之下,人类参与者获得了接近完美的得分(100%和95.6%),而微调的ResNet50模型达到了96.5%和94.5%的准确率。这些结果突出了当前MLLMs视觉能力的一个关键差距。我们的分析进一步探讨了可能导致MLLMs中这种感知差距的潜在架构和训练范式因素。我们开源HueManity数据集和代码,以促进进一步研究,从而提高MLLMs的感知鲁棒性。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLMs)在细粒度视觉感知任务中表现不佳的问题。现有方法在高层次视觉推理方面表现出色,但在需要精确模式识别的任务中,例如识别嵌入在复杂背景中的字符,性能显著下降。这种不足限制了MLLMs在需要精细视觉理解的应用中的潜力。
核心思路:论文的核心思路是构建一个专门用于评估MLLMs视觉感知能力的基准数据集HueManity。通过设计包含挑战性视觉模式(石原测试风格的点状图案嵌入字母数字字符串)的图像,迫使模型进行精确的模式识别,从而揭示其在细粒度视觉感知方面的局限性。这种设计能够有效区分模型在高层次推理和低层次感知之间的能力差异。
技术框架:HueManity数据集包含83,850张图像,图像中嵌入了双字符字母数字字符串。评估流程包括:1) 将图像输入到MLLM模型中;2) 模型输出识别结果;3) 将模型输出与真实标签进行比较,计算准确率。论文对比了九个最先进的MLLMs、人类参与者和微调的ResNet50模型在HueManity数据集上的性能。
关键创新:该论文的关键创新在于提出了HueManity基准数据集,该数据集专门设计用于评估MLLMs在细粒度视觉感知方面的能力。与现有数据集相比,HueManity更加关注模型的精确模式识别能力,而非高层次的语义理解。这种设计能够更有效地揭示MLLMs在视觉感知方面的局限性。
关键设计:HueManity数据集的关键设计包括:1) 使用石原测试风格的点状图案作为背景,增加视觉干扰;2) 嵌入双字符字母数字字符串,增加识别难度;3) 将任务分为“简单”(仅数字)和“困难”(字母数字)两种类型,以便更细致地评估模型性能。论文没有详细说明损失函数或网络结构的修改,而是侧重于数据集的设计和评估。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有MLLMs在HueManity数据集上的性能远低于人类和传统计算机视觉模型。最佳MLLM在数字“简单”任务上准确率为33.6%,在字母数字“困难”任务上仅为3%。相比之下,人类参与者准确率接近完美(100%和95.6%),微调的ResNet50模型准确率达到96.5%和94.5%。这些结果清晰地揭示了MLLMs在细粒度视觉感知方面的不足。
🎯 应用场景
该研究成果可应用于评估和改进多模态大语言模型的视觉感知能力,尤其是在需要精确视觉识别的场景中,例如医学图像分析、自动驾驶、工业质检等。通过提高MLLMs的视觉感知能力,可以拓展其在各个领域的应用范围,并提升其性能。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) excel at high-level visual reasoning, but their performance on nuanced perceptual tasks remains surprisingly limited. We present HueManity, a benchmark designed to assess visual perception in MLLMs. The dataset comprises 83,850 images featuring two-character alphanumeric strings embedded in Ishihara test style dot patterns, challenging models on precise pattern recognition. Our evaluation of nine state-of-the-art MLLMs on HueManity demonstrates a significant performance deficit compared to human and traditional computer vision baselines. The best-performing MLLM achieved a 33.6% accuracy on the numeric
easy' task and a striking 3% on the alphanumerichard' task. In contrast, human participants achieved near-perfect scores (100% and 95.6%), and a fine-tuned ResNet50 model reached accuracies of 96.5% and 94.5%. These results highlight a critical gap in the visual capabilities of current MLLMs. Our analysis further explores potential architectural and training-paradigm factors contributing to this perceptual gap in MLLMs. We open-source HueManity dataset and code to foster further research in improving perceptual robustness of MLLMs.