ChartAct: A Benchmark for Dynamic Chart Understanding

📄 arXiv: 2605.26994v1 📥 PDF

作者: Muye Huang, Wu Lin, Lingling Zhang, Hang Yan, Zhiyuan Wang, Yumeng Fu, Zesheng Yang, Jun Liu

分类: cs.CV

发布日期: 2026-05-26

🔗 代码/项目: GITHUB


💡 一句话要点

提出ChartAct:一个动态图表理解的交互式基准测试。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 动态图表理解 交互式基准 多模态模型 GUI代理 图表问答

📋 核心要点

  1. 现有图表理解基准主要关注静态图表,忽略了现实世界中动态交互图表的普遍性,这限制了模型在实际应用中的能力。
  2. ChartAct通过构建包含多种交互方式的动态图表数据集,要求模型识别可见内容、选择交互方式并推理图表状态变化。
  3. 实验表明,现有先进模型在ChartAct上表现不佳,突显了动态图表理解的挑战性,并为未来研究提供了明确的评估标准。

📝 摘要(中文)

图表被广泛用于呈现复杂数据,以支持分析和决策。现有的图表理解基准主要关注静态图表,但现实世界的图表通常是动态和交互式的。关键信息可能只在悬停、点击、缩放或拖动等操作后才会出现。因此,动态图表理解需要模型识别可见内容,选择适当的交互方式,并对不断变化的图表状态进行推理。为了评估这种能力,我们提出了ChartAct,一个用于动态图表理解的交互式基准。ChartAct从8个真实的图表网站收集并筛选了673个动态图表,涵盖7种常见的图表类型,并构建了1,440个高质量的问答样本。每个样本都在动态图表和仪表盘图表两种环境中实例化,以评估不同上下文下的动态图表理解。基于ChartAct,我们系统地评估了11个先进的多模态模型和GUI代理。实验结果表明,现有模型在动态图表理解方面仍然存在明显的局限性。最强的模型Claude-Opus-4.7实现了84.5%的平均成功率,而大多数模型仍低于60%。我们还进行了详细的失败归因和案例分析。ChartAct为研究真实交互环境中的图表理解提供了一个新的基准。

🔬 方法详解

问题定义:论文旨在解决现有图表理解基准主要关注静态图表,无法有效评估模型在真实交互式动态图表环境中理解和推理能力的问题。现有方法无法处理需要用户交互才能呈现关键信息的动态图表,导致模型在实际应用中性能受限。

核心思路:论文的核心思路是构建一个包含多种交互方式(如悬停、点击、缩放、拖动)的动态图表数据集ChartAct,并设计相应的问答任务,以评估模型在动态交互环境下的图表理解能力。通过要求模型选择合适的交互方式并推理图表状态变化,从而更全面地评估模型的理解能力。

技术框架:ChartAct基准测试包含以下几个主要组成部分:1) 从8个真实图表网站收集并筛选的673个动态图表;2) 涵盖7种常见图表类型;3) 1,440个高质量的问答样本,每个样本在动态图表和仪表盘图表两种环境中实例化;4) 用于评估模型性能的评估指标。整体流程是:给定一个动态图表和问题,模型需要选择合适的交互方式,观察图表状态变化,并最终给出答案。

关键创新:ChartAct的关键创新在于其动态性和交互性。与以往的静态图表理解基准不同,ChartAct中的图表需要用户交互才能呈现关键信息,这更贴近真实世界的应用场景。此外,ChartAct还提供了两种不同的环境(动态图表和仪表盘图表),以评估模型在不同上下文下的理解能力。

关键设计:ChartAct的数据集构建过程中,作者精心设计了问答样本,确保问题能够覆盖图表中的关键信息,并需要模型进行推理才能回答。此外,作者还对数据集进行了过滤,以确保数据的质量和多样性。评估指标主要采用成功率,即模型正确回答问题的比例。具体交互方式的选择和执行由GUI代理完成,代理需要根据问题选择合适的交互动作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有先进的多模态模型和GUI代理在ChartAct基准测试上表现不佳,即使是最强的模型Claude-Opus-4.7也仅达到84.5%的平均成功率,而大多数模型低于60%。这表明动态图表理解仍然是一个具有挑战性的问题,ChartAct为未来的研究提供了一个有价值的评估平台。

🎯 应用场景

该研究成果可应用于智能数据分析、自动化报告生成、人机交互等领域。通过提升模型对动态图表的理解能力,可以帮助用户更高效地从复杂数据中提取信息,辅助决策,并实现更智能的数据可视化应用。未来,该技术有望应用于金融分析、市场预测、科学研究等多个领域。

📄 摘要(原文)

Charts are widely used to present complex data for analysis and decision making. Existing chart understanding benchmarks mainly focus on static charts, but real-world charts are often dynamic and interactive. Key information may only appear after actions such as hovering, clicking, zooming, or dragging. Dynamic chart understanding therefore requires models to identify visible content, choose proper interactions, and reason over changing chart states. To evaluate this ability, we propose ChartAct, an interactive benchmark for dynamic chart understanding. ChartAct collects and filters 673 dynamic charts from 8 real chart websites, covers 7 common chart types, and constructs 1,440 high-quality question-answer samples. Each sample is instantiated in two environments, Dynamic Chart and Dashboard Chart, to evaluate dynamic chart understanding under different contexts. Based on ChartAct, we systematically evaluate 11 advanced multimodal models and GUI agents. Experimental results show that existing models still have clear limitations in dynamic chart understanding. The strongest model, Claude-Opus-4.7, achieves an average success rate of 84.5\%, while most models remain below 60\%. We also conduct detailed failure attribution and case analysis. ChartAct provides a new benchmark for studying chart understanding in real interactive environments. Codes at https://github.com/wulin-wulin/OSWorld_Chart