GanitBench: A bi-lingual benchmark for evaluating mathematical reasoning in Vision Language Models

📄 arXiv: 2508.03737v1 📥 PDF

作者: Ashutosh Bandooni, Brindha Subburaj

分类: cs.CL, cs.AI

发布日期: 2025-07-31

备注: 6 pages, 3 figures. Accepted, Presented and Published as part of Proceedings of the 6th International Conference on Recent Advantages in Information Technology (RAIT) 2025

期刊: 2025 6th International Conference on Recent Advances in Information Technology (RAIT), Dhanbad, India, 2025, pp. 1-6

DOI: 10.1109/RAIT65068.2025.11089442


💡 一句话要点

GanitBench:一个用于评估视觉语言模型数学推理能力的双语基准测试集

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 数学推理 基准测试 多语言 印地语

📋 核心要点

  1. 现有视觉语言模型推理基准测试集多为单语,缺乏对印地语等语言的支持,限制了模型在多语言环境下的应用。
  2. GanitBench提供英印双语数学题,包含图像和文本,旨在评估模型在复杂视觉信息下的数学推理能力。
  3. 实验表明,GPT-4o mini在GanitBench上表现最佳,但“双重锁定”约束和印地语问题均显著降低模型性能。

📝 摘要(中文)

近年来,用于评估视觉语言模型(VLMs)在多个领域和方向的推理能力的基准测试集越来越频繁地被创建。然而,这些基准测试集通常是单语的,主要以英语提供。此外,除了理解和翻译之外,印地语在其他任务上的数据集也很缺乏。我们推出了GanitBench,这是一个具有挑战性的基准测试集,包含1527个仅视觉问题,涵盖数学的多个主题,并提供英语和印地语两种语言版本。该基准测试集收集自印度的两项主要考试——JEE Advanced和CBSE Boards考试,包括图像形式的问题,这些图像包含问题所需的图形和文本。我们评估了两个闭源模型在零样本思维链(CoT)和两样本CoT设置下的性能。GPT-4o mini在该基准测试集上表现更出色,其最高平均准确率为38.15%。我们还通过“双重锁定”约束评估模型,这大大降低了模型的性能。我们观察到,在这种环境下,两样本CoT似乎是一种更有效的设置。当用印地语回答相同的问题时,两个VLMs的性能也会下降。我们希望通过我们的工作促进印地语等语言在研究中的应用。

🔬 方法详解

问题定义:论文旨在解决视觉语言模型在数学推理能力评估中,缺乏多语言(尤其是印地语)支持的问题。现有基准测试集主要集中在英语,并且缺乏包含复杂视觉信息的数学问题,这限制了模型在实际场景中的应用和泛化能力。现有方法难以有效评估模型在多语言和视觉信息干扰下的数学推理能力。

核心思路:论文的核心思路是构建一个双语(英语和印地语)的数学推理基准测试集GanitBench,该数据集包含来自印度JEE Advanced和CBSE Boards考试的图像形式的数学问题。通过这个数据集,可以更全面地评估视觉语言模型在多语言环境和复杂视觉信息下的数学推理能力。这样设计的目的是为了弥补现有基准测试集的不足,并促进多语言视觉语言模型的研究。

技术框架:GanitBench数据集的构建流程主要包括以下几个阶段:1) 从JEE Advanced和CBSE Boards考试中收集数学问题,这些问题包含图像和文本;2) 将问题翻译成英语和印地语;3) 对数据集进行清洗和标注;4) 使用该数据集评估现有的视觉语言模型,例如GPT-4o mini。评估过程中使用了零样本思维链(CoT)和两样本CoT两种设置,并引入了“双重锁定”约束,以进一步评估模型的鲁棒性。

关键创新:论文的关键创新点在于构建了一个双语(英语和印地语)的数学推理基准测试集GanitBench。与现有的基准测试集相比,GanitBench包含来自真实考试的复杂视觉信息,并且支持印地语,这使得它可以更全面地评估视觉语言模型在多语言环境和复杂视觉信息下的数学推理能力。此外,论文还引入了“双重锁定”约束,以进一步评估模型的鲁棒性。

关键设计:GanitBench数据集的关键设计包括:1) 数据集包含1527个问题,涵盖数学的多个主题;2) 问题以图像形式呈现,包含图形和文本;3) 数据集提供英语和印地语两种语言版本;4) 评估过程中使用了零样本思维链(CoT)和两样本CoT两种设置;5) 引入了“双重锁定”约束,具体实现方式未知。

📊 实验亮点

实验结果表明,GPT-4o mini在GanitBench数据集上表现最佳,平均准确率达到38.15%。然而,“双重锁定”约束显著降低了模型的性能,表明模型在复杂约束条件下推理能力不足。此外,模型在印地语问题上的表现明显低于英语问题,表明模型在多语言推理方面仍有提升空间。两样本CoT在“双重锁定”约束下表现更优。

🎯 应用场景

GanitBench数据集可用于训练和评估视觉语言模型在数学、科学等领域的推理能力,尤其是在多语言环境下。该数据集有助于提升模型在教育、科研等领域的应用效果,例如智能辅导系统、自动阅卷系统等。未来,可以扩展GanitBench数据集,增加更多语言和题型,以进一步提升模型的泛化能力。

📄 摘要(原文)

Benchmarks for evaluating reasoning among Vision Language Models (VLMs) on several fields and domains are being curated more frequently over the last few years. However these are often monolingual, mostly available in English. Additionally there also is a lack of datasets available in Hindi on tasks apart from comprehension and translation. We introduce GanitBench, a tough benchmark consisting of 1527 vision-only questions covering several topics in Mathematics - available in languages English and Hindi. Collected from two major examinations from India, the JEE Advanced and the CBSE Boards examinations, this benchmark includes questions in the form of images comprising of figures essential to a question as well as text. We evaluate two closed source models for the same, in zero-shot Chain-of-Thought (CoT) and two-shot CoT settings. GPT-4o mini is found to be the more dominant model on the benchmark, with it's highest average accuracy being 38.15%. We also evaluate models through a "Double Lock" constraint, which brings down the performance of the models by considerable margins. We observe that two-shot CoT appears to be a more effective setting under this environment. Performance of the two VLMs also decreases when answering the same questions in the Hindi language. We hope to facilitate the inclusion of languages like Hindi in research through our work.