Generating Statistical Charts with Validation-Driven LLM Workflows

作者: Pavlin G. Poličar, Andraž Pevcin, Blaž Zupan

分类: cs.LG

发布日期: 2026-05-01

💡 一句话要点

提出基于验证驱动的LLM工作流，用于生成高质量统计图表并构建图表问答数据集。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 统计图表生成 大型语言模型 多模态学习 验证驱动 图表问答

📋 核心要点

现有LLM在生成统计图表时，渲染后的可读性和语义匹配问题难以检测，缺乏有效的验证机制。
提出一种结构化的LLM工作流，通过渲染输出验证来解决可视化特定问题，并生成包含代码、描述和问答对的图表。
实验表明，该工作流生成的图表问答数据集可用于评估多模态LLM在图表理解和推理方面的能力。

📝 摘要（中文）

利用大型语言模型（LLM）从表格数据生成多样且易读的统计图表仍然具有挑战性，因为许多错误在渲染后才显现，并且无法仅从数据或代码中检测到。现有的图表数据集也极少提供完全对齐的工件，例如可执行代码、数据集上下文和问答对。本文提出了一种结构化的、基于LLM的工作流，该工作流将图表生成分解为数据集筛选、绘图提议、代码合成、渲染、验证驱动的细化、描述生成和问答生成。通过结合渲染输出验证，该工作流解决了可视化特定的失败模式，例如可读性和语义不匹配。它将图表生成视为一个可检查的过程，而不是一次性的prompt-to-code任务，保留每个图表及其代码、数据集上下文、描述和问答对。应用于UCI数据集，该工作流从74个数据集生成了1500个图表，涵盖24个图表类型，并配对30003个问答对。我们在这些图表问答对上评估了16个多模态LLM（MLLM）。结果表明，图表语法问题几乎饱和，而值提取、比较和推理仍然更具挑战性，说明了该工作流在图表相关的多模态推理诊断研究中的效用。

🔬 方法详解

问题定义：论文旨在解决LLM生成统计图表时存在的挑战，特别是渲染后的图表可读性差、语义不匹配以及缺乏高质量的图表数据集。现有方法通常是端到端的prompt-to-code，忽略了图表生成过程中的可验证性，导致许多错误在渲染后才被发现。此外，现有的图表数据集缺乏完整的对齐信息，例如可执行代码、数据集上下文和问答对，限制了对多模态LLM在图表理解方面的评估。

核心思路：论文的核心思路是将图表生成过程分解为多个可验证的步骤，并引入渲染输出验证机制。通过迭代地生成、渲染、验证和细化图表，可以有效地解决可视化特定的失败模式，例如可读性和语义不匹配。此外，论文还强调了生成包含完整对齐信息的图表数据集的重要性，以便更好地评估和诊断多模态LLM在图表理解和推理方面的能力。

技术框架：该工作流包含以下主要模块/阶段：1) 数据集筛选：选择适合生成图表的数据集。2) 绘图提议：根据数据集的特征提出可能的图表类型。3) 代码合成：使用LLM生成绘制图表的代码。4) 渲染：执行生成的代码并渲染图表。5) 验证驱动的细化：验证渲染的图表是否满足可读性和语义匹配的要求，如果不满足，则返回代码合成阶段进行修改。6) 描述生成：使用LLM生成图表的描述。7) 问答生成：使用LLM生成关于图表的问答对。

关键创新：最重要的技术创新点是引入了渲染输出验证机制，将图表生成视为一个可检查的过程，而不是一次性的prompt-to-code任务。这种验证机制可以有效地解决可视化特定的失败模式，例如可读性和语义不匹配。此外，论文还提出了一个结构化的LLM工作流，将图表生成分解为多个可验证的步骤，从而提高了图表生成的质量和可控性。

关键设计：论文没有详细描述具体的参数设置、损失函数或网络结构，因为其重点在于工作流的设计和验证机制的引入。关键的设计在于如何定义可读性和语义匹配的验证标准，以及如何根据验证结果对生成的代码进行修改。这些验证标准和修改策略可能需要根据具体的图表类型和数据集进行调整。

🖼️ 关键图片

📊 实验亮点

该工作流应用于UCI数据集，生成了1500个图表，涵盖24种图表类型，并配对30003个问答对。在这些图表问答对上评估了16个多模态LLM，结果表明图表语法问题已接近饱和，而值提取、比较和推理仍然具有挑战性，验证了该工作流在诊断图表相关的多模态推理能力方面的有效性。

🎯 应用场景

该研究成果可应用于自动化数据可视化、智能报表生成、教育领域（辅助学生理解统计概念）以及多模态LLM的评测与诊断。通过该工作流，可以更高效地生成高质量的统计图表，并为多模态LLM提供更具挑战性的图表理解和推理任务，促进相关技术的发展。

📄 摘要（原文）

Generating diverse, readable statistical charts from tabular data remains challenging for LLMs, as many failures become apparent after rendering and are not detectable from data or code alone. Existing chart datasets also rarely provide fully aligned artifacts, such as executable code, dataset context, and question-answer pairs. We present a structured LLM-based workflow that decomposes chart generation into dataset screening, plot proposal, code synthesis, rendering, validation-driven refinement, description generation, and question-answer generation. By incorporating rendered-output validation, the workflow addresses visualization-specific failure modes such as readability and semantic mismatch. It treats chart generation as an inspectable process rather than a one-shot prompt-to-code task, retaining each chart with its code, dataset context, description, and question-answer pairs. Applied to UCI datasets, the workflow produces 1,500 charts from 74 datasets, spanning 24 chart families and paired with 30,003 question-answer pairs. We evaluate 16 multimodal LLMs (MLLMs) on these chart-question pairs. The results show that chart-syntax questions are nearly saturated, while value extraction, comparison, and reasoning remain more challenging, illustrating the workflow's utility for diagnostic studies of chart-grounded multimodal reasoning.

Generating Statistical Charts with Validation-Driven LLM Workflows

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理