GSM-Infinite: How Do Your LLMs Behave over Infinitely Increasing Context Length and Reasoning Complexity?
作者: Yang Zhou, Hongyi Liu, Zhuoming Chen, Yuandong Tian, Beidi Chen
分类: cs.CL, cs.AI
发布日期: 2025-02-07
💡 一句话要点
提出GSM-Infinite,用于评估LLM在无限增长的上下文长度和推理复杂性下的表现
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长上下文LLM 推理能力 数学问题生成 计算图 基准测试
📋 核心要点
- 现有基准难以定量评估LLM在长上下文和高推理复杂度下的表现,阻碍了相关研究。
- 受计算图启发,论文提出GSM-Infinite,可控地生成无限难度和长度的数学问题。
- 实验表明,LLM推理性能随复杂度增加呈sigmoid衰减,计算资源投入与性能提升不成正比。
📝 摘要(中文)
长上下文大型语言模型(LLMs)最近在信息检索和长文档问答方面表现出强大的性能。然而,为了解决最具挑战性的智力问题,LLMs必须在长而复杂的上下文中进行有效的推理(例如,前沿数学研究)。研究LLMs如何处理日益增长的推理复杂性和上下文长度至关重要,但现有的基准缺乏定量评估的坚实基础。受到GSM-8K问题抽象为计算图的启发,以及通过添加不必要的节点和边来引入噪声的能力,我们开发了一种小学数学问题生成器,能够在精细控制下生成具有无限难度和上下文长度的算术问题。使用我们新合成的GSM-Infinite基准,我们全面评估了现有的LLMs。我们发现,随着复杂性的增加,推理性能持续呈现sigmoid衰减,以及系统的推理缩放趋势:指数级增长的推理计算仅产生线性性能增益。这些发现强调了当前长上下文LLMs的根本局限性以及扩展推理能力的关键挑战。我们的GSM-Infinite基准提供了一个可扩展和可控的试验台,用于系统地研究和推进LLM在长而复杂的上下文中的推理。
🔬 方法详解
问题定义:现有长上下文LLM在解决复杂推理问题时面临挑战,尤其是在上下文长度和推理复杂度同时增加的情况下。现有基准无法有效控制问题的难度和上下文长度,难以系统性地评估LLM的推理能力。因此,需要一个可控的、可扩展的基准来研究LLM在长上下文和复杂推理场景下的表现。
核心思路:论文的核心思路是将小学数学问题抽象为计算图,通过增加计算图的节点和边来控制问题的难度和上下文长度。通过这种方式,可以生成具有无限难度和上下文长度的数学问题,从而为评估LLM的推理能力提供一个可控的测试平台。同时,通过引入噪声节点和边,可以模拟真实场景中存在的干扰信息,更全面地评估LLM的鲁棒性。
技术框架:GSM-Infinite基准包含一个数学问题生成器和一个评估框架。问题生成器基于计算图生成数学问题,可以控制问题的难度、上下文长度和噪声水平。评估框架用于评估LLM在GSM-Infinite上的推理性能,并分析性能与问题难度、上下文长度和噪声水平之间的关系。整体流程包括:1) 定义计算图的结构;2) 根据计算图生成数学问题;3) 使用LLM解决数学问题;4) 评估LLM的推理性能。
关键创新:最重要的技术创新点是提出了一种基于计算图的数学问题生成方法,可以精细控制问题的难度和上下文长度。与现有方法相比,GSM-Infinite可以生成具有无限难度和上下文长度的数学问题,从而更全面地评估LLM的推理能力。此外,GSM-Infinite还可以引入噪声节点和边,模拟真实场景中的干扰信息,更真实地反映LLM的性能。
关键设计:GSM-Infinite的关键设计包括:1) 计算图的结构设计,包括节点类型、边类型和连接方式;2) 数学问题生成算法,包括如何根据计算图生成问题描述和答案;3) 噪声引入机制,包括如何添加不必要的节点和边;4) 评估指标,包括准确率、召回率和F1值等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,随着问题复杂度的增加,LLM的推理性能呈现sigmoid衰减。同时,指数级增长的推理计算仅带来线性性能增益,揭示了当前长上下文LLM在推理能力上的根本局限性。GSM-Infinite为系统性研究和提升LLM在长上下文和复杂推理中的能力提供了一个可控的测试平台。
🎯 应用场景
GSM-Infinite可用于评估和改进长上下文LLM的推理能力,尤其是在需要复杂推理的领域,如数学、科学研究、金融分析等。该基准可以帮助研究人员更好地理解LLM的局限性,并开发更有效的推理算法和模型架构。此外,GSM-Infinite还可以用于评估LLM的鲁棒性,提高其在真实场景中的应用效果。
📄 摘要(原文)
Long-context large language models (LLMs) have recently shown strong performance in information retrieval and long-document QA. However, to tackle the most challenging intellectual problems, LLMs must reason effectively in long and complex contexts (e.g., frontier mathematical research). Studying how LLMs handle increasing reasoning complexity and context length is essential, yet existing benchmarks lack a solid basis for quantitative evaluation. Inspired by the abstraction of GSM-8K problems as computational graphs, and the ability to introduce noise by adding unnecessary nodes and edges, we develop a grade school math problem generator capable of producing arithmetic problems with infinite difficulty and context length under fine-grained control. Using our newly synthesized GSM-Infinite benchmark, we comprehensively evaluate existing LLMs. We find a consistent sigmoid decline in reasoning performance as complexity increases, along with a systematic inference scaling trend: exponentially increasing inference computation yields only linear performance gains. These findings underscore the fundamental limitations of current long-context LLMs and the key challenges in scaling reasoning capabilities. Our GSM-Infinite benchmark provides a scalable and controllable testbed for systematically studying and advancing LLM reasoning in long and complex contexts.