CHARTOM: A Visual Theory-of-Mind Benchmark for LLMs on Misleading Charts

📄 arXiv: 2408.14419v3 📥 PDF

作者: Shubham Bharti, Shiyun Cheng, Jihyun Rho, Jianrui Zhang, Mu Cai, Yong Jae Lee, Martina Rau, Xiaojin Zhu

分类: cs.AI, cs.CL, cs.CV

发布日期: 2024-08-26 (更新: 2025-06-29)


💡 一句话要点

提出CHARTOM基准,评估LLM对误导性图表的视觉心理理论能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉心理理论 大型语言模型 误导性图表 基准数据集 多模态学习

📋 核心要点

  1. 现有LLM在理解图表信息方面存在不足,尤其是在识别可能误导人类读者的图表方面。
  2. CHARTOM基准通过FACT和MIND双重问题,评估LLM理解图表内容和判断图表是否具有误导性的能力。
  3. 实验结果表明,包括GPT系列在内的多个主流LLM在CHARTOM基准上表现不佳,凸显了该领域的挑战。

📝 摘要(中文)

本文提出了CHARTOM,一个视觉心理理论基准,旨在评估多模态大型语言模型理解和推理图表中误导性数据可视化的能力。CHARTOM包含精心设计的图表和相关问题,要求语言模型不仅要正确理解图表中的事实内容(FACT问题),还要判断该图表是否会误导人类读者(MIND问题),这是一种具有重要社会效益的双重能力。我们详细介绍了基准的构建,包括对人类表现的校准和对MIND真值的估计,称为人类误导性指数。我们评估了几个领先的LLM——包括GPT、Claude、Gemini、Qwen、Llama和Llava系列模型——在CHARTOM数据集上的表现,发现FACT和MIND问题对所有模型都具有挑战性。这突出了当前LLM的局限性,并为未来LLM在理解误导性图表方面提供了重要的改进机会。

🔬 方法详解

问题定义:论文旨在解决LLM在理解和推理误导性图表方面的能力不足问题。现有方法难以区分图表呈现的事实信息和图表可能产生的误导性影响,缺乏对人类认知偏差的建模。

核心思路:论文的核心思路是构建一个包含FACT和MIND双重问题的基准数据集,FACT问题考察LLM对图表事实信息的理解,MIND问题考察LLM对图表误导性的判断。通过这种方式,可以更全面地评估LLM的视觉心理理论能力。

技术框架:CHARTOM基准的构建流程包括:1) 设计具有潜在误导性的图表;2) 提出FACT和MIND问题;3) 通过人类实验校准图表的误导性,得到人类误导性指数;4) 利用该指数作为MIND问题的ground truth。评估流程是将图表和问题输入LLM,根据LLM的回答评估其在FACT和MIND问题上的准确率。

关键创新:CHARTOM的关键创新在于其双重问题设计,FACT问题评估LLM对图表内容的理解,MIND问题评估LLM对图表潜在误导性的判断。这种设计使得可以更全面地评估LLM的视觉心理理论能力,而不仅仅是信息提取能力。与现有方法相比,CHARTOM更关注LLM对人类认知偏差的理解。

关键设计:CHARTOM数据集包含多种类型的图表,例如条形图、折线图等。MIND问题的ground truth是通过人类实验获得的,具体来说,是统计人类认为该图表具有误导性的比例,并将其作为人类误导性指数。该指数被用于评估LLM在MIND问题上的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,包括GPT-4、Claude 3 Opus、Gemini 1.5 Pro等在内的多个先进LLM在CHARTOM基准上表现不佳,尤其是在MIND问题上,准确率远低于人类水平。这表明当前LLM在理解和推理误导性图表方面仍存在显著差距,为未来的研究提供了明确的方向。

🎯 应用场景

该研究成果可应用于开发更值得信赖和负责任的AI系统。通过提高LLM识别和避免误导性信息的能力,可以减少AI系统在决策过程中产生偏差的可能性,并促进更公平和透明的信息传播。此外,该研究还可以应用于教育领域,帮助人们更好地识别和理解数据可视化中的潜在误导。

📄 摘要(原文)

We introduce CHARTOM, a visual theory-of-mind benchmark designed to evaluate multimodal large language models' capability to understand and reason about misleading data visualizations though charts. CHARTOM consists of carefully designed charts and associated questions that require a language model to not only correctly comprehend the factual content in the chart (the FACT question) but also judge whether the chart will be misleading to a human readers (the MIND question), a dual capability with significant societal benefits. We detail the construction of our benchmark including its calibration on human performance and estimation of MIND ground truth called the Human Misleadingness Index. We evaluated several leading LLMs -- including GPT, Claude, Gemini, Qwen, Llama, and Llava series models -- on the CHARTOM dataset and found that it was challenging to all models both on FACT and MIND questions. This highlights the limitations of current LLMs and presents significant opportunity for future LLMs to improve on understanding misleading charts.