DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

📄 arXiv: 2604.25914v1 📥 PDF

作者: Jinxiang Meng, Shaoping Huang, Fangyu Lei, Jingyu Guo, Haoxiang Liu, Jiahao Su, Sihan Wang, Yao Wang, Enrui Wang, Ye Yang, Hongze Chai, Jinming Lv, Anbang Yu, Huangjing Zhang, Yitong Zhang, Yiming Huang, Zeyao Ma, Shizhu He, Jun Zhao, Kang Liu

分类: cs.CL

发布日期: 2026-04-28

🔗 代码/项目: GITHUB


💡 一句话要点

DV-World:构建真实世界数据可视化Agent的基准测试平台

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 数据可视化 Agent 基准测试 真实世界场景 用户意图对齐

📋 核心要点

  1. 现有数据可视化基准测试缺乏真实环境交互、跨平台适应能力和对用户意图的准确理解,限制了其评估真实世界应用场景的能力。
  2. DV-World通过构建包含DV-Sheet、DV-Evolution和DV-Interact三个领域的基准测试,模拟真实世界数据可视化的复杂任务和用户交互。
  3. 实验结果表明,现有SOTA模型在DV-World上的表现远低于50%,揭示了现有模型在处理真实世界数据可视化任务时的不足。

📝 摘要(中文)

真实世界的数据可视化(DV)需要原生的环境基础、跨平台演进和主动的意图对齐。然而,现有的基准测试通常受限于代码沙箱、单语言创建任务以及完美意图的假设。为了弥合这些差距,我们推出了DV-World,一个包含260个任务的基准测试,旨在评估DV Agent在真实世界专业生命周期中的表现。DV-World涵盖三个领域:DV-Sheet,用于原生电子表格操作,包括图表和仪表板的创建以及诊断修复;DV-Evolution,用于调整和重构参考视觉工件,以适应跨不同编程范例的新数据;DV-Interact,用于通过模拟真实世界模糊需求的用户模拟器进行主动的意图对齐。我们的混合评估框架集成了用于数值精度的表格值对齐和带有语义-视觉评估规则的MLLM-as-a-Judge。实验表明,最先进的模型实现了低于50%的总体性能,暴露了在处理真实世界数据可视化复杂挑战方面的关键缺陷。DV-World提供了一个真实的测试平台,以引导开发朝着企业工作流程中所需的多功能专业知识发展。我们的数据和代码可在https://github.com/DA-Open/DV-World 获取。

🔬 方法详解

问题定义:现有数据可视化Agent的评估基准存在以下痛点:一是缺乏真实环境的交互,例如直接操作电子表格;二是缺乏跨平台和编程语言的适应性;三是假设用户意图是明确的,忽略了真实场景中用户需求的模糊性。这些限制使得现有基准无法有效评估Agent在真实世界数据可视化任务中的能力。

核心思路:DV-World的核心思路是构建一个更贴近真实世界数据可视化流程的基准测试平台。通过模拟真实的用户交互、提供多样化的数据和任务类型,以及采用更全面的评估指标,来更准确地评估Agent在真实场景中的表现。这样可以促进Agent朝着更实用、更智能的方向发展。

技术框架:DV-World包含三个主要模块:DV-Sheet、DV-Evolution和DV-Interact。DV-Sheet模拟电子表格操作,包括图表和仪表板的创建和修复;DV-Evolution评估Agent在不同编程范式下对视觉工件的适应和重构能力;DV-Interact通过用户模拟器模拟真实世界模糊的用户需求,评估Agent的意图对齐能力。评估框架采用表格值对齐(Table-value Alignment)进行数值精度评估,并使用MLLM-as-a-Judge结合规则进行语义-视觉评估。

关键创新:DV-World的关键创新在于其对真实世界数据可视化流程的模拟。它不仅考虑了数据处理和图表生成,还包括了用户交互、跨平台适应和意图理解等关键环节。此外,DV-World的评估框架也更加全面,结合了数值精度和语义-视觉评估,能够更准确地评估Agent的性能。

关键设计:DV-World的任务设计涵盖了多种真实世界场景,例如财务报表分析、市场营销数据可视化等。用户模拟器通过生成模糊的需求描述来模拟真实用户的交互。评估指标包括数值精度、图表类型准确性、信息完整性等。具体参数设置和损失函数等技术细节在论文中未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,现有最先进的模型在DV-World上的总体性能低于50%,表明现有模型在处理真实世界数据可视化任务时存在显著不足。这一结果突显了DV-World作为真实世界数据可视化Agent评估基准的价值,并为未来的研究方向提供了重要参考。

🎯 应用场景

DV-World的研究成果可应用于开发更智能、更实用的数据可视化Agent,提升企业数据分析和决策效率。该基准测试平台能够促进Agent在金融、市场营销、医疗等领域的应用,帮助用户更高效地理解和利用数据,从而做出更明智的决策。未来,DV-World可以扩展到更多领域,并集成更多真实世界的数据和任务。

📄 摘要(原文)

Real-world data visualization (DV) requires native environmental grounding, cross-platform evolution, and proactive intent alignment. Yet, existing benchmarks often suffer from code-sandbox confinement, single-language creation-only tasks, and assumption of perfect intent. To bridge these gaps, we introduce DV-World, a benchmark of 260 tasks designed to evaluate DV agents across real-world professional lifecycles. DV-World spans three domains: DV-Sheet for native spreadsheet manipulation including chart and dashboard creation as well as diagnostic repair; DV-Evolution for adapting and restructuring reference visual artifacts to fit new data across diverse programming paradigms and DV-Interact for proactive intent alignment with a user simulator that mimics real-world ambiguous requirements. Our hybrid evaluation framework integrates Table-value Alignment for numerical precision and MLLM-as-a-Judge with rubrics for semantic-visual assessment. Experiments reveal that state-of-the-art models achieve less than 50% overall performance, exposing critical deficits in handling the complex challenges of real-world data visualization. DV-World provides a realistic testbed to steer development toward the versatile expertise required in enterprise workflows. Our data and code are available at \href{https://github.com/DA-Open/DV-World}{this project page}.