GRAFT: GRaPH and Table Reasoning for Textual Alignment -- A Benchmark for Structured Instruction Following and Visual Reasoning

📄 arXiv: 2508.15690v4 📥 PDF

作者: Abhigya Verma, Sriram Puttagunta, Seganrasan Subramanian, Sravan Ramachandran

分类: cs.AI, cs.LG, cs.MM

发布日期: 2025-08-21 (更新: 2025-12-02)

备注: 25 pages, 10 tables, 3 figures


💡 一句话要点

GRAFT:提出图表推理基准,用于评估LLM在视觉文本对齐和结构化指令跟随上的能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉推理 文本对齐 图表理解 表格理解

📋 核心要点

  1. 现有方法在处理需要精确视觉文本对齐和复杂推理的多模态任务时存在不足。
  2. GRAFT通过程序化生成图表和表格,并设计多步骤分析问题,来评估模型的推理能力。
  3. GRAFT提供结构化输出格式和细粒度的评估指标,为多模态LLM的评估提供更严格的标准。

📝 摘要(中文)

GRAFT是一个结构化的多模态基准,旨在探究大型语言模型(LLM)在指令跟随、视觉推理以及需要紧密视觉文本对齐的任务中的表现。该数据集围绕程序化生成的图表和合成渲染的表格构建,每个图表和表格都配有一个精心构建的多步骤分析问题,这些问题完全依赖于从图像本身推断出的信息。答案以结构化输出(如JSON或YAML)格式呈现,从而能够对推理过程和对输出规范的遵守情况进行一致且细粒度的评估。该基准进一步引入了一系列推理操作,从比较和趋势识别到排序、聚合、比例估计和异常检测,以支持对模型能力的全面评估。总而言之,GRAFT为评估多模态LLM在视觉基础上的结构化推理任务提供了一个统一且可扩展的框架,为未来的基准测试工作提供了更严格的标准。

🔬 方法详解

问题定义:现有的大型语言模型在处理需要视觉信息和文本信息紧密结合的任务时,例如从图表或表格中提取信息并进行复杂推理,表现仍然不够理想。现有的基准测试可能无法充分评估模型在这些方面的能力,或者缺乏对推理过程的细粒度评估。

核心思路:GRAFT的核心思路是创建一个可控、可扩展且具有挑战性的基准测试,该基准测试专注于视觉文本对齐和结构化推理。通过程序化生成图表和表格,可以精确控制数据的复杂性和多样性。通过设计多步骤分析问题,可以评估模型在不同推理操作上的表现。

技术框架:GRAFT基准测试包含以下主要组成部分:1) 程序化图表和表格生成器:用于生成各种类型的图表和表格,并控制其属性。2) 多步骤分析问题生成器:根据图表和表格的内容,自动生成需要进行复杂推理才能回答的问题。3) 结构化输出格式:要求模型以JSON或YAML等结构化格式输出答案,以便进行细粒度的评估。4) 评估指标:包括准确率、一致性等指标,用于评估模型的推理能力和对输出规范的遵守情况。

关键创新:GRAFT的关键创新在于其程序化数据生成方法和结构化输出格式。程序化数据生成允许创建大量具有不同属性的图表和表格,从而可以更全面地评估模型的泛化能力。结构化输出格式使得可以对模型的推理过程进行更细粒度的评估,而不仅仅是评估最终答案的正确性。

关键设计:GRAFT基准测试中的问题涵盖了多种推理操作,包括比较、趋势识别、排序、聚合、比例估计和异常检测。这些推理操作旨在模拟现实世界中常见的分析任务。数据集的大小和复杂性可以根据需要进行调整,以适应不同模型的评估需求。输出格式被设计为易于解析和评估,同时允许模型表达复杂的推理过程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GRAFT基准测试提供了一个统一且可扩展的框架,用于评估多模态LLM在视觉基础上的结构化推理任务。它引入了一系列推理操作,并要求模型以结构化格式输出答案,从而可以对模型的推理过程进行细粒度的评估。GRAFT为未来的基准测试工作提供了更严格的标准,并有望推动多模态LLM的发展。

🎯 应用场景

GRAFT基准测试可以用于评估和比较不同多模态LLM在视觉文本推理方面的能力。它可以帮助研究人员更好地理解模型的优势和劣势,并指导模型的改进。此外,GRAFT还可以用于开发更强大的视觉助手和智能数据分析工具,这些工具可以帮助用户从图表和表格中提取有价值的信息。

📄 摘要(原文)

GRAFT is a structured multimodal benchmark designed to probe how well LLMs handle instruction following, visual reasoning, and tasks requiring tight visual textual alignment. The dataset is built around programmatically generated charts and synthetically rendered tables, each paired with a carefully constructed, multi step analytical question that depends solely on what can be inferred from the image itself. Responses are formatted in structured outputs such as JSON or YAML, enabling consistent and fine grained evaluation of both reasoning processes and adherence to output specifications. The benchmark further introduces a taxonomy of reasoning operations ranging from comparison and trend identification to ranking, aggregation, proportional estimation, and anomaly detection to support a comprehensive assessment of model capabilities. Taken together, GRAFT provides a unified and scalable framework for evaluating multimodal LLMs on visually grounded, structured reasoning tasks, offering a more rigorous standard for future benchmarking efforts.