Doc2Chart: Intent-Driven Zero-Shot Chart Generation from Documents
作者: Akriti Jain, Pritika Ramu, Aparna Garimella, Apoorv Saxena
分类: cs.CL
发布日期: 2025-07-20 (更新: 2025-08-27)
备注: Accepted to EMNLP 2025 Main Conference
💡 一句话要点
Doc2Chart:提出意图驱动的文档零样本图表生成框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图表生成 零样本学习 大型语言模型 意图驱动 文档理解
📋 核心要点
- 现有方法难以直接应用于从长文档中根据用户意图生成图表的真实场景,需要手动选择相关内容。
- 提出一种无监督的两阶段框架,利用LLM提取和验证数据,并结合启发式方法选择图表类型。
- 在金融和科学领域的数据集上,该方法在图表数据准确性和图表类型选择上显著优于现有基线。
📝 摘要(中文)
大型语言模型(LLMs)在通过指令调优方法将文本描述或表格转换为数据可视化方面表现出强大的能力。然而,将这些方法直接应用于更真实的用例,即基于用户给定的意图从长文档中可视化数据,而不是用户手动预先选择相关内容,并非易事。我们引入了基于意图的文档图表生成任务:给定用户指定的意图和文档,目标是生成符合意图并基于文档的图表,且在零样本设置下进行。我们提出了一个无监督的两阶段框架,其中LLM首先通过分解意图从文档中提取相关信息,并迭代地验证和细化这些数据。接下来,一个启发式引导的模块选择合适的图表类型,然后生成最终代码。为了评估生成图表的数据准确性,我们提出了一种基于归因的指标,该指标使用图表的结构化文本表示,而不是依赖于通常无法有效捕获图表数据的视觉解码指标。为了验证我们的方法,我们整理了一个包含来自金融和科学两个领域的1,242个<意图,文档,图表>元组的数据集,这与现有的大部分仅限于并行文本描述/表格及其对应图表的数据集形成对比。我们将我们的方法与使用LLM的单样本图表生成和基于查询的检索方法进行比较;我们的方法在图表数据准确性和图表类型方面分别比最佳基线高出高达9个百分点和17个百分点。
🔬 方法详解
问题定义:现有方法在处理从长文档中根据用户意图生成图表的问题时,需要用户手动预先选择相关内容,这限制了其在实际应用中的可用性。此外,评估生成图表的数据准确性也面临挑战,因为视觉解码指标通常无法有效捕获图表数据。
核心思路:论文的核心思路是构建一个意图驱动的零样本图表生成框架,该框架能够自动从文档中提取与用户意图相关的信息,并生成准确且符合意图的图表。通过分解用户意图,迭代验证和细化数据,以及使用启发式方法选择图表类型,该框架能够有效地解决上述问题。
技术框架:该框架包含两个主要阶段:1) 信息提取与验证阶段:利用LLM分解用户意图,从文档中提取相关信息,并迭代地验证和细化这些数据。2) 图表类型选择与代码生成阶段:使用启发式引导的模块选择合适的图表类型,然后生成最终代码。
关键创新:该论文的关键创新在于提出了一个无监督的两阶段框架,该框架能够自动从文档中提取与用户意图相关的信息,并生成准确且符合意图的图表。此外,论文还提出了一种基于归因的指标,用于评估生成图表的数据准确性,该指标使用图表的结构化文本表示,而不是依赖于视觉解码指标。
关键设计:信息提取阶段的关键设计在于如何有效地分解用户意图,并从文档中提取相关信息。图表类型选择阶段的关键设计在于如何使用启发式方法选择合适的图表类型。此外,基于归因的指标的设计也是一个关键的技术细节,它能够有效地评估生成图表的数据准确性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在图表数据准确性和图表类型选择方面显著优于现有基线。具体而言,在图表数据准确性方面,该方法比最佳基线高出高达9个百分点;在图表类型选择方面,该方法比最佳基线高出高达17个百分点。这些结果验证了该方法的有效性。
🎯 应用场景
该研究成果可应用于金融报告分析、科学文献可视化等领域,帮助用户快速从大量文档中提取关键信息并生成可视化图表,提升信息获取和理解的效率。未来可扩展到更多领域,例如法律文档分析、市场调研报告等,具有广泛的应用前景。
📄 摘要(原文)
Large Language Models (LLMs) have demonstrated strong capabilities in transforming text descriptions or tables to data visualizations via instruction-tuning methods. However, it is not straightforward to apply these methods directly for a more real-world use case of visualizing data from long documents based on user-given intents, as opposed to the user pre-selecting the relevant content manually. We introduce the task of intent-based chart generation from documents: given a user-specified intent and document(s), the goal is to generate a chart adhering to the intent and grounded on the document(s) in a zero-shot setting. We propose an unsupervised, two-staged framework in which an LLM first extracts relevant information from the document(s) by decomposing the intent and iteratively validates and refines this data. Next, a heuristic-guided module selects an appropriate chart type before final code generation. To assess the data accuracy of the generated charts, we propose an attribution-based metric that uses a structured textual representation of charts, instead of relying on visual decoding metrics that often fail to capture the chart data effectively. To validate our approach, we curate a dataset comprising of 1,242 $<$intent, document, charts$>$ tuples from two domains, finance and scientific, in contrast to the existing datasets that are largely limited to parallel text descriptions/ tables and their corresponding charts. We compare our approach with baselines using single-shot chart generation using LLMs and query-based retrieval methods; our method outperforms by upto $9$ points and $17$ points in terms of chart data accuracy and chart type respectively over the best baselines.