CMMaTH: A Chinese Multi-modal Math Skill Evaluation Benchmark for Foundation Models

📄 arXiv: 2407.12023v1 📥 PDF

作者: Zhong-Zhi Li, Ming-Liang Zhang, Fei Yin, Zhi-Long Ji, Jin-Feng Bai, Zhen-Ru Pan, Fan-Hu Zeng, Jian Xu, Jia-Xin Zhang, Cheng-Lin Liu

分类: cs.CL, cs.AI

发布日期: 2024-06-28


💡 一句话要点

CMMaTH:构建中文多模态数学能力评估基准,促进基础模型发展

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 数学能力评估 中文基准 K12教育 大型语言模型 视觉推理 GradeGPT

📋 核心要点

  1. 现有方法缺乏针对中文K12教育场景的多模态数学能力细粒度评估工具和数据集。
  2. CMMaTH基准通过构建大规模、多样化的中文多模态数学问题,为模型评估提供有效资源。
  3. GradeGPT工具集成了CMMaTH数据集,旨在提供稳定、快速且低成本的模型评估方案。

📝 摘要(中文)

随着多模态大型语言模型的快速发展,评估其多模态数学能力日益受到关注。尽管像MathVista这样的数据集为评估多模态场景下的数学能力提供了基准,但在中文语境下,针对K12教育的细粒度评估工具和数据集仍然匮乏。为了系统地评估多模态大型模型解决中文多模态数学问题的能力,我们提出了一个中文多模态数学技能评估基准,名为CMMaTH,包含2.3万个与K12数学相关的多模态问题,是迄今为止最大的中文多模态数学问题基准。CMMaTH问题涵盖小学到高中水平,在问题类型、解题目标、视觉元素、详细知识点和标准答案注释方面提供了更高的多样性。我们构建了一个与CMMaTH数据集集成的开源工具GradeGPT,以促进稳定、快速和免费的模型评估。我们的数据和代码均已开源。

🔬 方法详解

问题定义:论文旨在解决中文多模态数学问题求解能力评估的问题。现有方法缺乏针对中文K12教育场景的细粒度评估基准,难以全面评估模型在理解和解决涉及图像、图表等视觉信息以及中文语言描述的数学问题的能力。

核心思路:论文的核心思路是构建一个大规模、高质量的中文多模态数学问题数据集CMMaTH,并开发相应的评估工具GradeGPT。通过提供多样化的题目类型、视觉元素和知识点,以及标准答案注释,为模型评估提供更全面、细致的依据。

技术框架:整体框架包含两个主要部分:CMMaTH数据集的构建和GradeGPT评估工具的开发。CMMaTH数据集的构建涉及收集、清洗、标注大量的中文多模态数学题目。GradeGPT工具则利用CMMaTH数据集,提供模型评估接口,并生成评估报告。

关键创新:关键创新在于构建了迄今为止最大的中文多模态数学问题基准CMMaTH,并将其与评估工具GradeGPT集成。CMMaTH数据集的多样性和细粒度标注,以及GradeGPT的易用性和高效性,为中文多模态数学能力评估提供了新的解决方案。与现有方法相比,CMMaTH更侧重于中文语境下的K12教育场景,并提供了更丰富的视觉信息和知识点。

关键设计:CMMaTH数据集包含2.3万个题目,覆盖小学到高中水平,问题类型包括选择题、填空题、解答题等。视觉元素包括图像、图表等。知识点涵盖数与代数、图形与几何、数据分析等。GradeGPT工具提供API接口,方便用户上传模型输出并获取评估结果。具体参数设置、损失函数和网络结构取决于被评估的模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CMMaTH数据集包含2.3万个多模态数学问题,是目前最大的中文多模态数学问题基准。GradeGPT工具提供稳定、快速和免费的模型评估服务。论文未提供具体的模型性能数据,但强调了数据集的多样性和评估工具的易用性,为后续研究提供了基础。

🎯 应用场景

该研究成果可应用于教育领域,用于评估和提升多模态大型语言模型在解决中文数学问题方面的能力。教师和学生可以利用该基准和工具来诊断模型在特定知识点上的薄弱环节,并进行针对性的训练。此外,该研究还可以促进多模态学习和智能教育的发展。

📄 摘要(原文)

Due to the rapid advancements in multimodal large language models, evaluating their multimodal mathematical capabilities continues to receive wide attention. Despite the datasets like MathVista proposed benchmarks for assessing mathematical capabilities in multimodal scenarios, there is still a lack of corresponding evaluation tools and datasets for fine-grained assessment in the context of K12 education in Chinese language. To systematically evaluate the capability of multimodal large models in solving Chinese multimodal mathematical problems, we propose a Chinese Multi-modal Math Skill Evaluation Benchmark, named CMMaTH, contraining 23k multimodal K12 math related questions, forming the largest Chinese multimodal mathematical problem benchmark to date. CMMaTH questions from elementary to high school levels, provide increased diversity in problem types, solution objectives, visual elements, detailed knowledge points, and standard solution annotations. We have constructed an open-source tool GradeGPT integrated with the CMMaTH dataset, facilitating stable, rapid, and cost-free model evaluation. Our data and code are available.