DiagramEval: Evaluating LLM-Generated Diagrams via Graphs
作者: Chumeng Liang, Jiaxuan You
分类: cs.CL
发布日期: 2025-10-29 (更新: 2025-10-31)
备注: EMNLP 2025 Main
🔗 代码/项目: GITHUB
💡 一句话要点
DiagramEval:提出基于图结构的LLM生成图表评估方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图表生成 大型语言模型 评估指标 图结构 节点对齐 路径对齐 自然语言处理 计算机视觉
📋 核心要点
- 现有图像生成模型难以生成结构清晰的图表,而人工创建图表耗时费力,因此需要一种有效评估LLM生成图表质量的方法。
- DiagramEval将图表视为图结构,通过节点对齐和路径对齐两种指标来评估LLM生成图表的质量,从而实现更细粒度的评估。
- 实验结果表明,DiagramEval能够有效评估LLM生成的图表,并提供关于LLM生成图表特征的深入见解,验证了指标的有效性。
📝 摘要(中文)
图表在研究论文中对于传达思想至关重要,但创建过程通常复杂且耗时。虽然图表以图像形式呈现,但标准的图像生成模型难以生成具有清晰结构的图表。一个有前景的方向是以文本形式(如SVG)直接生成演示图表,从而利用大型语言模型(LLM)的最新进展。然而,由于图表组成部分的复杂性和多模态特性,仍然缺乏足够具有区分性和可解释性的指标来评估LLM生成图表的质量。本文提出了DiagramEval,一种用于评估LLM生成演示图表的新型评估指标。DiagramEval将图表概念化为图,将文本元素视为节点,将它们之间的连接视为有向边,并使用两组新指标评估图表质量:节点对齐和路径对齐。首次有效地评估了最先进的LLM在最新研究文献中生成的图表,定量地证明了所提出指标的有效性。此外,所提出的指标增强的可解释性为深入了解LLM生成图表的特征提供了有价值的见解。
🔬 方法详解
问题定义:论文旨在解决如何有效评估大型语言模型(LLM)生成的图表质量的问题。现有方法,如直接评估图像质量的指标,无法充分捕捉图表中的结构信息和语义关系,导致评估结果缺乏区分性和可解释性。人工评估成本高昂且主观性强。
核心思路:论文的核心思路是将图表抽象为图结构,其中文本元素作为节点,元素之间的连接关系作为有向边。通过评估生成图与参考图在节点和路径上的对齐程度,来衡量生成图表的质量。这种方法能够更细粒度地捕捉图表的结构和语义信息。
技术框架:DiagramEval的整体框架包括以下几个主要步骤:1) 将LLM生成的图表和参考图表解析为图结构;2) 使用节点对齐指标评估生成图和参考图之间节点的相似性和对应关系;3) 使用路径对齐指标评估生成图和参考图之间路径的相似性和对应关系;4) 综合节点对齐和路径对齐的结果,得到最终的图表质量评估分数。
关键创新:DiagramEval的关键创新在于将图表视为图结构,并提出了节点对齐和路径对齐两种新的评估指标。与传统的图像质量评估指标相比,DiagramEval能够更好地捕捉图表的结构信息和语义关系,从而提供更准确和可解释的评估结果。
关键设计:节点对齐指标可以使用各种文本相似度度量方法,例如余弦相似度或编辑距离,来评估节点文本的相似性。路径对齐指标可以使用图匹配算法,例如最大公共子图算法,来评估路径的相似性。具体参数设置和算法选择可能需要根据具体应用场景进行调整。
🖼️ 关键图片
📊 实验亮点
论文通过实验验证了DiagramEval的有效性。实验结果表明,DiagramEval能够有效区分不同LLM生成的图表质量,并与人工评估结果具有较高的一致性。此外,实验还表明,DiagramEval能够提供关于LLM生成图表特征的深入见解,例如LLM在生成节点文本和连接关系方面的优缺点。
🎯 应用场景
DiagramEval可应用于评估和改进LLM生成的各种图表,例如研究论文中的示意图、流程图和概念图。该方法可以帮助研究人员快速评估不同LLM生成图表的效果,并指导模型训练和优化。此外,DiagramEval还可以用于自动化图表生成流程,提高图表创建效率。
📄 摘要(原文)
Diagrams play a central role in research papers for conveying ideas, yet they are often notoriously complex and labor-intensive to create. Although diagrams are presented as images, standard image generative models struggle to produce clear diagrams with well-defined structure. We argue that a promising direction is to generate demonstration diagrams directly in textual form as SVGs, which can leverage recent advances in large language models (LLMs). However, due to the complexity of components and the multimodal nature of diagrams, sufficiently discriminative and explainable metrics for evaluating the quality of LLM-generated diagrams remain lacking. In this paper, we propose DiagramEval, a novel evaluation metric designed to assess demonstration diagrams generated by LLMs. Specifically, DiagramEval conceptualizes diagrams as graphs, treating text elements as nodes and their connections as directed edges, and evaluates diagram quality using two new groups of metrics: node alignment and path alignment. For the first time, we effectively evaluate diagrams produced by state-of-the-art LLMs on recent research literature, quantitatively demonstrating the validity of our metrics. Furthermore, we show how the enhanced explainability of our proposed metrics offers valuable insights into the characteristics of LLM-generated diagrams. Code: https://github.com/ulab-uiuc/diagram-eval.