LongCoT: Benchmarking Long-Horizon Chain-of-Thought Reasoning
作者: Sumeet Ramesh Motwani, Daniel Nichols, Charles London, Peggy Li, Fabio Pizzati, Acer Blake, Hasan Hammoud, Tavish McDonald, Akshat Naik, Alesia Ivanova, Vignesh Baskaran, Ivan Laptev, Ruben Glatt, Tal Ben-Nun, Philip Torr, Natasha Jaques, Ameya Prabhu, Brian Bartoldson, Bhavya Kailkhura, Christian Schroeder de Witt
分类: cs.LG, cs.AI
发布日期: 2026-04-15
备注: Long-Horizon Reasoning Benchmark
💡 一句话要点
LongCoT:用于评估长程思维链推理能力的可扩展基准测试
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长程推理 思维链 语言模型 基准测试 可扩展性
📋 核心要点
- 现有语言模型在长程推理方面存在不足,难以处理需要长时间思维链的任务。
- LongCoT通过构建包含大量推理步骤的问题,直接评估模型在长程思维链上的推理能力。
- 实验表明,即使是当前最先进的模型在LongCoT上的表现也远低于预期,揭示了长程推理的巨大挑战。
📝 摘要(中文)
随着语言模型越来越多地应用于复杂的自主任务,它们在更长的时间范围内进行准确推理的能力变得至关重要。这种能力的一个重要组成部分是规划和管理一个长而复杂的思维链(CoT)。我们推出了LongCoT,这是一个可扩展的基准,包含2500个专家设计的难题,涵盖化学、数学、计算机科学、国际象棋和逻辑,旨在分离并直接衡量前沿模型的长程CoT推理能力。这些问题包含一个简短的输入和一个可验证的答案;解决它们需要导航一个相互依赖的步骤图,这些步骤跨越数万到数十万个推理token。每个局部步骤对于前沿模型来说都是可行的,因此失败反映了长程推理的局限性。在发布时,最好的模型在LongCoT上的准确率低于10%(GPT 5.2:9.8%;Gemini 3 Pro:6.1%),揭示了当前能力的巨大差距。总的来说,LongCoT提供了一种严格的长程推理度量方法,用于跟踪前沿模型在较长时间内可靠推理的能力。
🔬 方法详解
问题定义:论文旨在解决现有语言模型在长程思维链推理方面的不足。现有方法在处理需要大量推理步骤、步骤之间存在复杂依赖关系的任务时,容易出现错误累积,导致最终结果不准确。痛点在于缺乏一个能够有效评估和诊断模型长程推理能力的基准。
核心思路:论文的核心思路是构建一个可扩展的基准测试集,该测试集包含大量需要长程思维链才能解决的问题。通过分析模型在这些问题上的表现,可以更准确地评估和诊断模型的长程推理能力,并为未来的研究提供指导。
技术框架:LongCoT基准测试集包含2500个专家设计的难题,涵盖化学、数学、计算机科学、国际象棋和逻辑等多个领域。每个问题都包含一个简短的输入和一个可验证的答案,解决问题需要导航一个相互依赖的步骤图。该图中的每个节点代表一个推理步骤,边代表步骤之间的依赖关系。问题的难度在于步骤数量多,推理链条长,需要模型具备强大的长程推理能力。
关键创新:LongCoT的关键创新在于其可扩展性和对长程推理的直接测量。与以往的基准测试相比,LongCoT包含的问题数量更多,推理链条更长,能够更全面地评估模型在长程推理方面的能力。此外,LongCoT的设计允许研究人员直接测量模型在每个推理步骤上的准确率,从而更深入地了解模型的推理过程。
关键设计:LongCoT中的问题由专家设计,确保问题的质量和难度。每个问题都经过精心设计,以确保解决问题需要长程思维链,并且每个推理步骤对于前沿模型来说都是可行的。此外,LongCoT还提供了一套评估指标,用于衡量模型在长程推理方面的表现,包括准确率、召回率和F1值等。
📊 实验亮点
实验结果表明,即使是当前最先进的语言模型(GPT 5.2和Gemini 3 Pro)在LongCoT上的准确率也低于10%,分别为9.8%和6.1%。这表明当前模型在长程推理方面存在显著差距,需要进一步的研究和改进。LongCoT的发布为研究人员提供了一个新的基准,可以用于评估和比较不同模型在长程推理方面的能力。
🎯 应用场景
LongCoT的研究成果可以应用于开发更强大的语言模型,使其能够更好地处理需要长程推理的任务,例如自动驾驶、医疗诊断、金融分析等。此外,LongCoT还可以用于评估和比较不同语言模型的长程推理能力,为模型选择和优化提供依据。该基准的发布将促进长程推理领域的研究进展。
📄 摘要(原文)
As language models are increasingly deployed for complex autonomous tasks, their ability to reason accurately over longer horizons becomes critical. An essential component of this ability is planning and managing a long, complex chain-of-thought (CoT). We introduce LongCoT, a scalable benchmark of 2,500 expert-designed problems spanning chemistry, mathematics, computer science, chess, and logic to isolate and directly measure the long-horizon CoT reasoning capabilities of frontier models. Problems consist of a short input with a verifiable answer; solving them requires navigating a graph of interdependent steps that span tens to hundreds of thousands of reasoning tokens. Each local step is individually tractable for frontier models, so failures reflect long-horizon reasoning limitations. At release, the best models achieve <10% accuracy (GPT 5.2: 9.8%; Gemini 3 Pro: 6.1%) on LongCoT, revealing a substantial gap in current capabilities. Overall, LongCoT provides a rigorous measure of long-horizon reasoning, tracking the ability of frontier models to reason reliably over extended periods.