Draw with Thought: Unleashing Multimodal Reasoning for Scientific Diagram Generation
作者: Zhiqing Cui, Jiahao Yuan, Hanqing Wang, Yanshu Li, Chenxu Du, Zhenglong Ding
分类: cs.AI, cs.CL
发布日期: 2025-04-13 (更新: 2025-10-13)
备注: 10 pages, 5 figures, accepted to appear in the Proceedings of the 33rd ACM International Conference on Multimedia (MM '25)
💡 一句话要点
提出Draw with Thought框架,利用多模态推理生成可编辑的科学图表。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 科学图表生成 多模态大语言模型 思维链推理 XML代码生成 结构化知识表示
📋 核心要点
- 现有方法在利用多模态大语言模型生成科学图表时,缺乏语义控制和结构可解释性,尤其是在处理复杂图表时。
- Draw with Thought (DwT) 框架通过认知驱动的思维链推理,引导多模态大语言模型将图表重建为可编辑的mxGraph XML代码。
- 实验结果表明,DwT框架能够生成高保真、语义对齐和结构有效的图表重建,并在准确性和视觉美学方面表现出色。
📝 摘要(中文)
科学图表是跨学科交流结构化知识的重要工具。然而,它们通常以静态栅格图像形式发布,丧失了符号语义并限制了重用。多模态大型语言模型(MLLM)为桥接视觉和结构提供了一条途径,但现有方法缺乏语义控制和结构可解释性,尤其是在复杂图表上。我们提出了Draw with Thought(DwT),一个无需训练的框架,通过认知驱动的思维链推理,引导MLLM将图表重建为可编辑的mxGraph XML代码。DwT通过将任务分为两个阶段来实现可解释和可控的输出,而无需模型微调:粗到细规划,处理感知结构化和语义规范;以及结构感知代码生成,通过格式引导的细化来增强。为了支持评估,我们发布了Plot2XML,一个包含247个真实世界科学图表的基准,带有黄金标准的XML注释。在八个MLLM上的大量实验表明,我们的方法产生了高保真、语义对齐和结构有效的重建,人工评估证实了在准确性和视觉美学方面的强大对齐,为将静态视觉效果转换为可执行表示并推进机器对科学图形的理解提供了一个可扩展的解决方案。
🔬 方法详解
问题定义:论文旨在解决科学图表以静态图像形式存在,缺乏语义信息,难以编辑和重用的问题。现有方法,特别是直接使用多模态大语言模型生成图表的方法,在语义控制和结构可解释性方面存在不足,难以处理复杂图表。
核心思路:论文的核心思路是将图表生成任务分解为两个阶段:粗到细的规划和结构感知的代码生成。通过思维链推理,逐步引导模型理解图表的结构和语义,并将其转化为可编辑的XML代码。这种分解使得模型能够更好地控制生成过程,并提高生成结果的准确性和可解释性。
技术框架:DwT框架包含两个主要阶段:1) 粗到细规划:该阶段负责图表的感知结构化和语义规范。模型首先进行粗略的规划,确定图表的主要组成部分和它们之间的关系。然后,逐步细化规划,添加细节信息,例如元素的类型、位置和属性。2) 结构感知代码生成:该阶段将规划结果转化为mxGraph XML代码。模型利用结构感知的机制,确保生成的代码符合XML的语法规则,并能够正确地表示图表的结构和语义。该阶段还包括格式引导的细化,进一步提高代码的质量。
关键创新:DwT框架的关键创新在于其无需训练的设计和认知驱动的思维链推理。无需训练的设计使得该框架能够直接应用于现有的多模态大语言模型,而无需进行额外的微调。认知驱动的思维链推理使得模型能够像人类一样,逐步理解和分析图表,从而生成更准确和可解释的结果。
关键设计:DwT框架的关键设计包括:1) 使用mxGraph XML作为图表的表示形式,因为它是一种通用的、可编辑的格式。2) 采用思维链推理,逐步引导模型理解图表的结构和语义。3) 设计了粗到细的规划策略,使得模型能够更好地控制生成过程。4) 引入了结构感知的代码生成机制,确保生成的代码符合XML的语法规则。
🖼️ 关键图片
📊 实验亮点
论文提出了Plot2XML基准数据集,包含247个真实世界的科学图表,并进行了详细的XML标注。实验结果表明,DwT框架在多个多模态大语言模型上取得了显著的性能提升,能够生成高保真、语义对齐和结构有效的图表重建。人工评估也证实了DwT框架在准确性和视觉美学方面的优势。
🎯 应用场景
该研究成果可广泛应用于科学文献的数字化、知识图谱的构建、教育资源的生成等领域。通过将静态的科学图表转换为可编辑的格式,可以方便地进行修改、重用和分析,从而提高科研效率和知识传播的效率。未来,该技术有望应用于更广泛的图形生成和编辑任务。
📄 摘要(原文)
Scientific diagrams are vital tools for communicating structured knowledge across disciplines. However, they are often published as static raster images, losing symbolic semantics and limiting reuse. While Multimodal Large Language Models (MLLMs) offer a pathway to bridging vision and structure, existing methods lack semantic control and structural interpretability, especially on complex diagrams. We propose Draw with Thought (DwT), a training-free framework that guides MLLMs to reconstruct diagrams into editable mxGraph XML code through cognitively-grounded Chain-of-Thought reasoning. DwT enables interpretable and controllable outputs without model fine-tuning by dividing the task into two stages: Coarse-to-Fine Planning, which handles perceptual structuring and semantic specification, and Structure-Aware Code Generation, enhanced by format-guided refinement. To support evaluation, we release Plot2XML, a benchmark of 247 real-world scientific diagrams with gold-standard XML annotations. Extensive experiments across eight MLLMs show that our approach yields high-fidelity, semantically aligned, and structurally valid reconstructions, with human evaluations confirming strong alignment in both accuracy and visual aesthetics, offering a scalable solution for converting static visuals into executable representations and advancing machine understanding of scientific graphics.