Do Text-to-Vis Benchmarks Test Real Use of Visualisations?
作者: Hy Nguyen, Xuefei He, Andrew Reeson, Cecile Paris, Josiah Poon, Jonathan K. Kummerfeld
分类: cs.CL, cs.HC
发布日期: 2024-07-29 (更新: 2024-10-08)
备注: Accepted to EMNLP 2024
💡 一句话要点
评估文本到可视化基准测试是否反映真实用户需求,揭示现有基准与实际应用的差距
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本到可视化 基准测试 实证研究 数据可视化 自然语言处理
📋 核心要点
- 现有文本到可视化基准测试可能无法真实反映用户的实际需求,导致模型在真实场景中表现不佳。
- 通过对比基准数据集和公共代码仓库中的可视化代码,分析它们在图表类型、属性和操作上的分布差异。
- 研究发现现有基准与真实应用存在显著差距,需要创建新的基准来更好地支持用户真实的可视化需求。
📝 摘要(中文)
大型语言模型能够根据简单的用户请求生成可视化的代码。这是一个有用的应用,并且由于数据图为语言提供了基础,因此对自然语言处理研究具有吸引力。然而,现有的基准测试相对较少,并且可能无法代表用户的实际使用情况。本文通过一项实证研究,将基准数据集与公共存储库中的代码进行比较,从而研究基准是否反映了真实世界的应用。研究结果表明存在很大的差距,评估没有测试与真实示例相同的图表类型、属性和操作的分布。一个数据集具有代表性,但需要进行大量修改才能成为实用的端到端基准。这表明需要新的基准来支持真正满足用户可视化需求的系统的开发。这些观察结果将指导未来的数据创建,突出哪些特征对用户具有真正的意义。
🔬 方法详解
问题定义:论文旨在评估现有的“文本到可视化”基准测试是否能够真实反映用户的实际使用场景。现有基准的痛点在于,它们可能无法覆盖真实世界中用户对可视化的各种需求,导致模型在这些基准上表现良好,但在实际应用中却效果不佳。这阻碍了“文本到可视化”技术在实际场景中的应用。
核心思路:论文的核心思路是通过对比分析现有基准数据集和真实世界中的可视化代码,来揭示它们之间的差异。具体来说,论文分析了两种数据集中图表类型、图表属性以及用户操作的分布情况,从而判断现有基准是否能够代表真实用户的需求。
技术框架:论文采用实证研究的方法,主要分为以下几个步骤: 1. 收集现有“文本到可视化”基准数据集和公共代码仓库中的可视化代码。 2. 定义用于描述图表类型、图表属性和用户操作的特征。 3. 对收集到的数据进行特征提取。 4. 对比分析不同数据集在这些特征上的分布差异。 5. 根据分析结果,评估现有基准的代表性,并提出改进建议。
关键创新:论文的关键创新在于,它首次系统性地评估了现有“文本到可视化”基准测试的代表性,并揭示了其与真实用户需求之间的差距。这一发现对于未来基准的构建和“文本到可视化”技术的发展具有重要的指导意义。
关键设计:论文的关键设计包括: 1. 选择合适的公共代码仓库作为真实世界数据的来源。 2. 定义能够全面描述图表类型、图表属性和用户操作的特征集合。 3. 采用合适的统计方法来对比分析不同数据集的分布差异。例如,论文可能使用了卡方检验来比较不同类别变量的分布。
🖼️ 关键图片
📊 实验亮点
研究结果表明,现有基准测试在图表类型、属性和操作的分布上与真实世界的示例存在显著差距。具体来说,某些基准测试可能过度关注特定类型的图表,而忽略了其他更常见的图表类型。此外,研究还发现,现有基准测试可能无法充分覆盖用户在实际应用中使用的各种图表属性和操作。研究发现一个数据集具有代表性,但需要大量修改才能成为实用的端到端基准。
🎯 应用场景
该研究成果可应用于指导未来“文本到可视化”基准测试的构建,使其更贴近真实用户需求。同时,该研究也有助于开发更实用的“文本到可视化”系统,从而降低用户创建可视化的门槛,促进数据分析和决策的普及。未来,该研究可以扩展到其他类型的自然语言生成任务,例如文本到图像生成等。
📄 摘要(原文)
Large language models are able to generate code for visualisations in response to simple user requests. This is a useful application and an appealing one for NLP research because plots of data provide grounding for language. However, there are relatively few benchmarks, and those that exist may not be representative of what users do in practice. This paper investigates whether benchmarks reflect real-world use through an empirical study comparing benchmark datasets with code from public repositories. Our findings reveal a substantial gap, with evaluations not testing the same distribution of chart types, attributes, and actions as real-world examples. One dataset is representative, but requires extensive modification to become a practical end-to-end benchmark. This shows that new benchmarks are needed to support the development of systems that truly address users' visualisation needs. These observations will guide future data creation, highlighting which features hold genuine significance for users.