Chain of Functions: A Programmatic Pipeline for Fine-Grained Chart Reasoning Data

📄 arXiv: 2503.16260v1 📥 PDF

作者: Zijian Li, Jingjing Fu, Lei Song, Jiang Bian, Jun Zhang, Rui Wang

分类: cs.CV

发布日期: 2025-03-20

备注: Under review


💡 一句话要点

提出Chain of Functions (CoF)框架,用于生成高质量、多样化的图表推理数据。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图表推理 多模态大语言模型 数据生成 函数链 可解释性 视觉推理 程序化生成

📋 核心要点

  1. 现有MLLM在图表推理中面临挑战,缺乏高质量、多样化的推理数据是主要瓶颈。
  2. CoF框架通过程序化的函数链生成推理数据,确保数据精度、多样性和可解释性,降低对超大模型的依赖。
  3. ChartCoF数据集的实验表明,CoF框架能有效提升MLLM在图表推理任务上的性能,达到同等规模模型的SOTA。

📝 摘要(中文)

视觉推理对于多模态大语言模型(MLLM)处理复杂的图表查询至关重要,但高质量的推理数据仍然稀缺。现有方法利用(M)LLM生成数据,但直接提示通常导致精度和多样性受限。本文提出了一种新的程序化推理数据生成流程,即函数链(CoF),它利用自由探索的推理路径作为监督,以确保数据的精度和多样性。具体来说,它首先在原子函数(例如,最大数据和算术运算)之间进行无人干预的探索,以生成多样化的函数链,然后仅使用适度的开源LLM将其转换为语言化的理由和问题。CoF具有多重优势:1)精度:函数控制的生成减少了自由形式生成中的幻觉;2)多样性:枚举函数链能够实现不同的问题分类;3)可解释性:函数链充当内置的理由,允许超出总体准确性的细粒度评估;4)实用性:消除了对超大型模型的依赖。利用CoF,我们构建了ChartCoF数据集,其中包含1.4k个用于细粒度分析的复杂推理问答和50k个用于推理增强的问答。对ChartCoF的细粒度评估揭示了每个MLLM在不同问题分类中的不同性能,实验还表明,使用ChartCoF进行微调可以在广泛使用的基准测试中实现同等规模MLLM中的最先进性能。此外,CoF中函数控制的理由生成的新范例可以激发图表之外的更广泛应用。

🔬 方法详解

问题定义:现有的多模态大语言模型(MLLM)在处理图表推理任务时,需要高质量的推理数据进行训练。然而,直接使用LLM生成数据往往存在精度不足和多样性有限的问题,容易产生幻觉,并且难以进行细粒度的评估。因此,如何高效地生成高质量、多样化且可解释的图表推理数据是一个关键问题。

核心思路:论文的核心思路是利用程序化的函数链(Chain of Functions, CoF)来生成推理数据。通过预定义的原子函数(如最大值、算术运算等)组合成不同的函数链,模拟人类的推理过程。这种方法能够确保数据的精度,因为函数链的执行结果是确定的。同时,通过枚举不同的函数链,可以生成多样化的推理路径和问题。

技术框架:CoF框架主要包含以下几个阶段: 1. 函数探索:自动探索不同的原子函数组合,生成多样化的函数链。 2. 数据生成:将函数链转化为语言化的推理过程和问题,利用中等规模的开源LLM进行生成。 3. 数据评估:利用函数链作为内置的理由,对生成的推理数据进行细粒度的评估。 整个流程无需人工干预,降低了数据生成的成本,并提高了效率。

关键创新:CoF框架的关键创新在于使用程序化的函数链来控制推理数据的生成过程。与传统的自由形式生成方法相比,CoF能够显著提高数据的精度和可解释性。此外,CoF框架还能够自动探索不同的推理路径,从而生成多样化的数据,避免了人工设计的局限性。

关键设计: * 原子函数库:定义了一系列原子函数,包括数据提取、算术运算、比较运算等,这些函数是构成函数链的基本单元。 * 函数链生成策略:采用随机搜索或启发式搜索等方法,自动生成不同的函数链。 * 语言化模板:设计了一系列语言化模板,将函数链转化为自然语言的推理过程和问题。 * 细粒度评估指标:基于函数链的执行结果,设计了一系列细粒度的评估指标,用于评估生成数据的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用CoF框架生成的ChartCoF数据集进行微调,可以显著提升MLLM在图表推理任务上的性能。在多个benchmark上,使用ChartCoF微调的模型达到了同等规模MLLM中的SOTA。此外,细粒度的评估结果表明,不同的MLLM在不同类型的问题上表现各异,为模型改进提供了方向。

🎯 应用场景

该研究成果可广泛应用于多模态大语言模型的训练和评估,尤其是在图表理解、数据分析等领域。通过CoF框架生成的高质量推理数据,可以提升MLLM在复杂推理任务上的性能,并提高模型的可解释性。此外,CoF框架的函数控制生成范式还可以扩展到其他领域,例如知识图谱推理、代码生成等。

📄 摘要(原文)

Visual reasoning is crucial for multimodal large language models (MLLMs) to address complex chart queries, yet high-quality rationale data remains scarce. Existing methods leveraged (M)LLMs for data generation, but direct prompting often yields limited precision and diversity. In this paper, we propose \textit{Chain of Functions (CoF)}, a novel programmatic reasoning data generation pipeline that utilizes freely-explored reasoning paths as supervision to ensure data precision and diversity. Specifically, it starts with human-free exploration among the atomic functions (e.g., maximum data and arithmetic operations) to generate diverse function chains, which are then translated into linguistic rationales and questions with only a moderate open-sourced LLM. \textit{CoF} provides multiple benefits: 1) Precision: function-governed generation reduces hallucinations compared to freeform generation; 2) Diversity: enumerating function chains enables varied question taxonomies; 3) Explainability: function chains serve as built-in rationales, allowing fine-grained evaluation beyond overall accuracy; 4) Practicality: eliminating reliance on extremely large models. Employing \textit{CoF}, we construct the \textit{ChartCoF} dataset, with 1.4k complex reasoning Q\&A for fine-grained analysis and 50k Q\&A for reasoning enhancement. The fine-grained evaluation on \textit{ChartCoF} reveals varying performance across question taxonomies for each MLLM, and the experiments also show that finetuning with \textit{ChartCoF} achieves state-of-the-art performance among same-scale MLLMs on widely used benchmarks. Furthermore, the novel paradigm of function-governed rationale generation in \textit{CoF} could inspire broader applications beyond charts.