MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs

📄 arXiv: 2410.04698v1 📥 PDF

作者: Lei Wang, Shan Dong, Yuhui Xu, Hanze Dong, Yalu Wang, Amrita Saha, Ee-Peng Lim, Caiming Xiong, Doyen Sahoo

分类: cs.CL

发布日期: 2024-10-07

备注: Work-in-Progress


💡 一句话要点

提出MathHay:一个用于评估LLM长文本数学推理能力的自动化基准。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长文本理解 数学推理 大型语言模型 自动化基准 信息检索

📋 核心要点

  1. 现有长文本LLM基准侧重于信息检索,缺乏对长文本数学推理能力的有效评估。
  2. MathHay基准要求模型同时具备信息搜索和复杂的数学推理能力,更贴近实际应用。
  3. 实验表明,即使是当前最优模型在MathHay基准上表现仍有提升空间,突显了该基准的价值。

📝 摘要(中文)

本文介绍MathHay,一个旨在评估大型语言模型(LLM)长文本数学推理能力的自动化基准。尽管最近的一些基准测试旨在评估LLM的长文本能力,但缺乏评估LLM在长文本中进行数学推理能力的基准,而这对于LLM在现实场景中的应用至关重要。与之前像“大海捞针”这类主要关注长文本信息检索的基准不同,MathHay要求模型同时具备信息搜索和复杂的数学推理能力。我们对八个表现最佳的LLM进行了广泛的MathHay实验,以评估它们的长文本数学推理能力。即使是表现最好的模型Gemini-1.5-Pro-002,在128K tokens下,其数学推理准确率也仅为51.26%,表明MathHay基准仍有很大的改进空间。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在长文本上下文中进行复杂数学推理能力评估的问题。现有基准测试,如“大海捞针”,主要关注信息检索,无法充分评估模型在长文本中理解和应用数学知识的能力。这限制了LLM在需要复杂推理的实际场景中的应用,例如科学研究、金融分析等。

核心思路:MathHay的核心思路是构建一个自动化基准,该基准能够生成包含大量无关信息的长文本,并在其中嵌入需要进行数学推理才能解决的问题。模型需要从长文本中提取相关信息,并运用数学知识进行推理,最终得出答案。这种设计模拟了真实世界中需要从大量信息中筛选并应用数学知识解决问题的场景。

技术框架:MathHay基准的整体框架包括以下几个主要模块:1) 问题生成器:负责生成包含数学推理的问题。2) 文本生成器:负责生成包含大量无关信息的长文本,并将问题嵌入其中。3) 评估器:负责评估模型从长文本中提取信息并解决问题的准确性。整个流程是自动化的,可以方便地生成大量的测试用例。

关键创新:MathHay的关键创新在于其同时考察了LLM的信息检索和数学推理能力。与以往侧重于单一能力的基准测试不同,MathHay更贴近实际应用场景,能够更全面地评估LLM的性能。此外,MathHay的自动化生成流程使得它可以方便地生成大量的测试用例,从而提高评估的可靠性。

关键设计:MathHay在问题生成方面,考虑了不同类型的数学问题,例如代数、几何、微积分等。在文本生成方面,采用了多种策略来生成无关信息,例如随机生成文本、从现有文档中抽取文本等。评估器则采用精确匹配的方式来评估模型的答案是否正确。具体的参数设置和损失函数等细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是当前表现最佳的LLM模型Gemini-1.5-Pro-002,在MathHay基准上,当文本长度达到128K tokens时,其数学推理准确率也仅为51.26%。这表明当前LLM在长文本数学推理方面仍有很大的提升空间,MathHay基准能够有效地揭示LLM的这一不足。

🎯 应用场景

MathHay基准的潜在应用领域包括评估和改进LLM在科学研究、金融分析、工程设计等领域的应用能力。通过使用MathHay,研究人员可以更好地了解LLM在长文本数学推理方面的优势和不足,从而开发出更强大的LLM,并将其应用于解决实际问题。该基准的自动化特性也使得它可以方便地用于持续评估和改进LLM的性能。

📄 摘要(原文)

Recent large language models (LLMs) have demonstrated versatile capabilities in long-context scenarios. Although some recent benchmarks have been developed to evaluate the long-context capabilities of LLMs, there is a lack of benchmarks evaluating the mathematical reasoning abilities of LLMs over long contexts, which is crucial for LLMs' application in real-world scenarios. In this paper, we introduce MathHay, an automated benchmark designed to assess the long-context mathematical reasoning capabilities of LLMs. Unlike previous benchmarks like Needle in a Haystack, which focus primarily on information retrieval within long texts, MathHay demands models with both information-seeking and complex mathematical reasoning abilities. We conduct extensive experiments on MathHay to assess the long-context mathematical reasoning abilities of eight top-performing LLMs. Even the best-performing model, Gemini-1.5-Pro-002, still struggles with mathematical reasoning over long contexts, achieving only 51.26% accuracy at 128K tokens. This highlights the significant room for improvement on the MathHay benchmark.