Evaluating Graphical Perception with Multimodal LLMs

📄 arXiv: 2504.04221v1 📥 PDF

作者: Rami Huu Nguyen, Kenichi Maeda, Mahsa Geshvadi, Daniel Haehn

分类: cs.CV

发布日期: 2025-04-05

备注: 6 pages, 5 figures, 1 teaser, IEEE Pacific Visualization 2025 Conference


💡 一句话要点

利用多模态大语言模型评估图形感知能力,对比人类表现。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 图形感知 数据可视化 模型评估 人机对比

📋 核心要点

  1. 现有MLLM在图表数值回归方面能力不足,缺乏对图形感知任务的深入研究。
  2. 论文复现经典图形感知实验,对比MLLM与人类表现,评估MLLM的图形理解能力。
  3. 实验结果表明,MLLM在某些图形感知任务中超越人类,但在另一些任务中表现不佳。

📝 摘要(中文)

多模态大语言模型(MLLMs)在图像分析和理解方面取得了显著进展。尽管如此,对于MLLMs而言,精确回归图表中的数值仍然是一个未被充分探索的领域。对于可视化而言,MLLMs在应用于图形感知任务时的表现如何?本文通过复现Cleveland和McGill在1984年所做的开创性实验,并将MLLMs的任务表现与人类的表现进行比较,来研究这个问题。我们的研究主要评估了微调和预训练的模型以及零样本提示,以确定它们是否与人类的图形感知能力密切匹配。我们的研究结果表明,MLLMs在某些情况下优于人类的任务表现,但在其他情况下则不然。我们重点介绍了所有实验的结果,以促进对MLLMs在应用于数据可视化时成功和失败之处的理解。

🔬 方法详解

问题定义:论文旨在评估多模态大语言模型(MLLMs)在图形感知任务中的表现,特别是回归图表中数值的能力。现有方法缺乏对MLLMs在可视化数据理解方面的深入研究,尚不清楚MLLMs能否像人类一样准确地感知和理解图表。

核心思路:论文的核心思路是通过复现Cleveland和McGill在1984年进行的经典图形感知实验,将MLLMs的性能与人类的性能进行直接比较。通过这种方式,可以系统地评估MLLMs在不同类型的图形感知任务中的优势和劣势。

技术框架:论文采用的实验框架包括:1) 选择合适的MLLMs,包括预训练模型和微调模型;2) 设计实验任务,复现Cleveland和McGill的实验;3) 使用零样本提示或微调来指导MLLMs完成任务;4) 收集MLLMs的输出结果,并与人类的实验结果进行比较分析。

关键创新:论文的关键创新在于首次系统地将MLLMs应用于经典的图形感知任务,并将其性能与人类的性能进行对比。这为评估MLLMs在数据可视化理解方面的能力提供了一个新的视角,并揭示了MLLMs在哪些方面可以超越人类,以及在哪些方面仍然存在差距。

关键设计:论文的关键设计包括:1) 选择了多种MLLMs,以评估不同模型的性能;2) 采用了零样本提示和微调两种方法,以探索不同的模型使用策略;3) 精心设计了实验任务,以确保其与Cleveland和McGill的原始实验具有可比性;4) 使用了合适的评估指标,以量化MLLMs和人类的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MLLMs在某些图形感知任务中表现优于人类,但在另一些任务中表现不佳。具体而言,MLLMs在长度判断等任务中表现出色,但在角度判断等任务中表现较差。这些结果揭示了MLLMs在数据可视化理解方面的优势和局限性,为未来的研究方向提供了指导。

🎯 应用场景

该研究成果可应用于自动化数据分析、智能报表生成、辅助决策支持等领域。通过提升MLLM的图形感知能力,可以使其更好地理解和利用可视化数据,从而为用户提供更准确、更高效的信息服务。未来,该研究还可以扩展到更复杂的图表类型和更广泛的应用场景。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have remarkably progressed in analyzing and understanding images. Despite these advancements, accurately regressing values in charts remains an underexplored area for MLLMs. For visualization, how do MLLMs perform when applied to graphical perception tasks? Our paper investigates this question by reproducing Cleveland and McGill's seminal 1984 experiment and comparing it against human task performance. Our study primarily evaluates fine-tuned and pretrained models and zero-shot prompting to determine if they closely match human graphical perception. Our findings highlight that MLLMs outperform human task performance in some cases but not in others. We highlight the results of all experiments to foster an understanding of where MLLMs succeed and fail when applied to data visualization.