LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models

📄 arXiv: 2505.15616v1 📥 PDF

作者: Ruilin Yao, Bo Zhang, Jirui Huang, Xinwei Long, Yifang Zhang, Tianyu Zou, Yufei Wu, Shichao Su, Yifan Xu, Wenxi Zeng, Zhaoyu Yang, Guoyou Li, Shilan Zhang, Zichan Li, Yaxiong Chen, Shengwu Xiong, Peng Xu, Jiajun Zhang, Bowen Zhou, David Clifton, Luc Van Gool

分类: cs.CV

发布日期: 2025-05-21

🔗 代码/项目: GITHUB | PROJECT_PAGE


💡 一句话要点

LENS:多层次评估大型语言模型多模态推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大型语言模型 基准数据集 视觉推理 多层次评估

📋 核心要点

  1. 现有MLLM基准测试缺乏对不同任务数据分布一致性的保证,难以有效评估感知能力对高阶推理的协同作用。
  2. LENS基准通过提供同一图像的多任务标注,支持评估MLLM在不同推理层级上的图像不变性提示处理能力。
  3. 实验结果表明,即使是最新的MLLM在LENS推理任务上的准确率也低于60%,揭示了现有模型在复杂推理方面的局限性。

📝 摘要(中文)

多模态大型语言模型(MLLM)在整合视觉和语言信息方面取得了显著进展,但它们在复杂和真实场景中进行推理的能力仍然有限。现有的基准通常以任务为导向构建,无法保证不同任务样本来自相同的数据分布,因此它们通常无法评估较低层次感知能力对较高层次推理的协同效应。为了克服这一限制,我们贡献了Lens,一个多层次基准,包含3.4K张当代图像和60K+个人工编写的问题,涵盖八个任务和12个日常场景,形成三个渐进的任务层级,即感知、理解和推理。一个特点是每张图像都配备了所有任务的丰富注释。因此,该数据集本质上支持评估MLLM处理图像不变提示的能力,从基本感知到组合推理。此外,我们的图像是从社交媒体手动收集的,其中53%的图像发布于2025年1月之后。我们评估了15+个前沿MLLM,如Qwen2.5-VL-72B、InternVL3-78B、GPT-4o和两个推理模型QVQ-72B-preview和Kimi-VL。这些模型均在2024年12月之后发布,并且在推理任务中没有一个模型的准确率超过60%。

🔬 方法详解

问题定义:现有的大型多模态模型(MLLM)的评估基准通常是针对特定任务构建的,这意味着不同任务的数据分布可能存在差异。这种差异使得很难评估模型在不同层次的认知能力(例如,感知、理解和推理)之间的协同作用。此外,现有基准可能无法充分代表真实世界的复杂场景,从而限制了对MLLM实际应用能力的评估。

核心思路:LENS的核心思路是构建一个多层次的基准数据集,该数据集包含同一图像的多个任务标注,从而允许对MLLM在不同认知层次上的能力进行综合评估。通过使用来自真实社交媒体的图像,并提供丰富的图像注释,LENS旨在更准确地反映MLLM在实际应用中的性能。这种设计允许研究人员评估模型在处理图像不变提示时的能力,从基本的感知到更复杂的组合推理。

技术框架:LENS基准数据集包含三个主要层级:感知、理解和推理。每个层级都包含多个任务,例如,感知层级可能包括目标检测和图像分割,理解层级可能包括视觉问答,推理层级可能包括常识推理和因果推理。数据集中的每张图像都配备了所有任务的详细注释,这使得可以对MLLM在不同任务上的性能进行比较和分析。此外,数据集还包含来自社交媒体的当代图像,以确保评估的现实性和相关性。

关键创新:LENS的关键创新在于其多层次的评估框架和对图像不变提示的支持。通过提供同一图像的多个任务标注,LENS允许研究人员评估MLLM在不同认知层次上的能力,并确定模型在哪些方面表现出色或不足。此外,LENS使用来自社交媒体的当代图像,这使得评估更具现实意义。

关键设计:LENS数据集包含3.4K张图像和60K+个人工编写的问题。图像是从社交媒体手动收集的,其中53%的图像发布于2025年1月之后。数据集涵盖八个任务和12个日常场景。评估了15+个前沿MLLM,包括Qwen2.5-VL-72B、InternVL3-78B、GPT-4o、QVQ-72B-preview和Kimi-VL。没有提供关于损失函数或网络结构的具体细节,因为该论文主要关注数据集的构建和评估。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

对15+个前沿MLLM的评估结果表明,即使是最新的模型(发布于2024年12月之后)在LENS推理任务上的准确率也低于60%。这表明现有MLLM在复杂推理方面仍存在显著差距,需要进一步的研究和改进。该数据集为未来的多模态模型研究提供了一个有价值的基准。

🎯 应用场景

LENS数据集可用于评估和改进多模态大型语言模型在各种实际应用中的性能,例如智能助手、自动驾驶、医疗诊断和教育等领域。通过更全面地评估模型的感知、理解和推理能力,可以开发出更可靠、更智能的AI系统,从而更好地服务于人类社会。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have achieved significant advances in integrating visual and linguistic information, yet their ability to reason about complex and real-world scenarios remains limited. The existing benchmarks are usually constructed in the task-oriented manner without guarantee that different task samples come from the same data distribution, thus they often fall short in evaluating the synergistic effects of lower-level perceptual capabilities on higher-order reasoning. To lift this limitation, we contribute Lens, a multi-level benchmark with 3.4K contemporary images and 60K+ human-authored questions covering eight tasks and 12 daily scenarios, forming three progressive task tiers, i.e., perception, understanding, and reasoning. One feature is that each image is equipped with rich annotations for all tasks. Thus, this dataset intrinsically supports to evaluate MLLMs to handle image-invariable prompts, from basic perception to compositional reasoning. In addition, our images are manully collected from the social media, in which 53% were published later than Jan. 2025. We evaluate 15+ frontier MLLMs such as Qwen2.5-VL-72B, InternVL3-78B, GPT-4o and two reasoning models QVQ-72B-preview and Kimi-VL. These models are released later than Dec. 2024, and none of them achieve an accuracy greater than 60% in the reasoning tasks. Project page: https://github.com/Lens4MLLMs/lens. ICCV 2025 workshop page: https://lens4mllms.github.io/mars2-workshop-iccv2025/