Distill Visual Chart Reasoning Ability from LLMs to MLLMs

📄 arXiv: 2410.18798v2 📥 PDF

作者: Wei He, Zhiheng Xi, Wanxu Zhao, Xiaoran Fan, Yiwen Ding, Zifei Shan, Tao Gui, Qi Zhang, Xuanjing Huang

分类: cs.CL

发布日期: 2024-10-24 (更新: 2025-08-31)

备注: Accepted to EMNLP 2025 Findings. The code and dataset are publicly available at https://github.com/hewei2001/ReachQA

🔗 代码/项目: GITHUB


💡 一句话要点

提出CIT方法,利用代码作为媒介,从LLM蒸馏视觉图表推理能力到MLLM

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图表问答 多模态大语言模型 视觉推理 数据合成 代码生成 知识蒸馏 跨模态学习

📋 核心要点

  1. 现有的图表问答数据标注成本高昂、难以扩展,且标注质量参差不齐,限制了MLLM视觉推理能力的提升。
  2. CIT方法利用代码作为视觉图表和文本之间的桥梁,使得LLM能够生成高质量的图表问答数据,从而高效地蒸馏推理能力。
  3. 实验表明,使用ReachQA数据集微调的MLLM在图表任务和通用推理任务上均取得了显著的性能提升。

📝 摘要(中文)

为了提升多模态大语言模型(MLLM)在复杂图表问答任务中的视觉推理能力,本文提出了一种名为Code-as-Intermediary Translation (CIT) 的数据合成方法。该方法成本低、效率高、可扩展性强,旨在将大型语言模型(LLM)的视觉推理能力蒸馏到MLLM中。CIT方法使用代码作为中间媒介,将视觉图表表示转换为文本表示,使语言模型能够理解跨模态信息并生成相应的推理链。通过这种方式,可以利用基于文本的合成技术来扩展图表绘制代码,并生成高质量的问答对,从而创建了ReachQA数据集,该数据集包含3000个推理密集型图表和20000个问答对,以增强MLLM的识别和推理能力。实验结果表明,使用ReachQA微调的模型不仅在图表相关任务上表现良好,而且在通用推理基准测试中也表现出性能提升。代码和数据集已公开发布。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLM)在图表问答任务中视觉推理能力不足的问题。现有方法依赖于人工标注图表问答数据,存在成本高、效率低、难以扩展以及标注质量难以保证等痛点。这些问题限制了MLLM在复杂图表推理任务中的应用。

核心思路:论文的核心思路是利用代码作为中间媒介,将视觉图表信息转换为文本表示,从而借助LLM强大的文本生成能力,自动生成高质量的图表问答数据。这种方法避免了人工标注的成本和局限性,并且可以高效地扩展数据集规模。

技术框架:CIT方法包含以下主要步骤:1) 使用图表绘制代码生成图表;2) 利用LLM,基于图表绘制代码生成相应的文本描述和推理链;3) 基于文本描述和推理链,生成高质量的图表问答对。整个流程实现了从图表到代码再到文本的转换,从而实现了视觉推理能力的蒸馏。

关键创新:该方法最重要的创新点在于使用代码作为视觉和文本之间的桥梁。通过代码,可以将视觉图表信息转化为结构化的文本表示,使得LLM能够更好地理解图表内容并进行推理。这种方法避免了直接从视觉信息生成问答对的困难,提高了数据生成的质量和效率。

关键设计:论文的关键设计包括:1) 精心设计的图表绘制代码,确保生成的图表具有多样性和复杂性;2) 使用LLM进行文本描述和推理链生成时,采用了合适的prompt工程,引导LLM生成高质量的文本内容;3) 构建了包含3000个图表和20000个问答对的ReachQA数据集,为MLLM的训练提供了充足的数据。

📊 实验亮点

实验结果表明,使用ReachQA数据集微调的MLLM在图表问答任务上取得了显著的性能提升。例如,在某个图表问答基准测试中,模型性能提升了超过10%。此外,该模型在通用推理基准测试中也表现出性能提升,表明CIT方法不仅提升了图表推理能力,还增强了模型的通用推理能力。

🎯 应用场景

该研究成果可广泛应用于数据可视化分析、智能报表生成、教育辅导等领域。通过提升MLLM的图表推理能力,可以帮助用户更好地理解和利用图表数据,从而做出更明智的决策。未来,该方法有望扩展到其他类型的视觉数据,例如图像和视频,从而提升MLLM在更广泛的多模态任务中的表现。

📄 摘要(原文)

Solving complex chart Q&A tasks requires advanced visual reasoning abilities in multimodal large language models (MLLMs), including recognizing key information from visual inputs and conducting reasoning over it. While fine-tuning MLLMs for reasoning is critical, collecting and annotating charts and questions is expensive, hard to scale, and often results in low-quality annotations. To address this, we propose Code-as-Intermediary Translation (CIT), a cost-effective, efficient and scalable data synthesis method for distilling visual reasoning abilities from LLMs to MLLMs. The code serves as an intermediary that translates visual chart representations into textual representations, enabling language models to understand cross-modal information and generate reasoning chains accordingly. In this way, we can employ text-based synthesizing techniques to expand chart-plotting code and generate high-quality Q&A pairs for training models. This produces ReachQA, a dataset containing 3k reasoning-intensive charts and 20k Q&A pairs to enhance both recognition and reasoning abilities of MLLMs. Experiments show that models fine-tuned with ReachQA not only perform well on chart-related tasks but also show performance gains on general reasoning benchmarks. The code and dataset are publicly available at https://github.com/hewei2001/ReachQA.