LongCoT: Benchmarking Long-Horizon Chain-of-Thought Reasoning

作者: Sumeet Ramesh Motwani, Daniel Nichols, Charles London, Peggy Li, Fabio Pizzati, Acer Blake, Hasan Hammoud, Tavish McDonald, Akshat Naik, Alesia Ivanova, Vignesh Baskaran, Ivan Laptev, Ruben Glatt, Tal Ben-Nun, Philip Torr, Natasha Jaques, Ameya Prabhu, Brian Bartoldson, Bhavya Kailkhura, Christian Schroeder de Witt

分类: cs.LG, cs.AI

发布日期: 2026-04-15

备注: Long-Horizon Reasoning Benchmark

💡 一句话要点

LongCoT：用于评估长程思维链推理能力的可扩展基准测试

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长程推理 思维链 语言模型 基准测试 可扩展性

📋 核心要点

现有语言模型在长程推理方面存在不足，难以处理需要长时间思维链的任务。
LongCoT通过构建包含大量推理步骤的问题，直接评估模型在长程思维链上的推理能力。
实验表明，即使是当前最先进的模型在LongCoT上的表现也远低于预期，揭示了长程推理的巨大挑战。

📝 摘要（中文）

随着语言模型越来越多地应用于复杂的自主任务，它们在更长的时间范围内进行准确推理的能力变得至关重要。这种能力的一个重要组成部分是规划和管理一个长而复杂的思维链（CoT）。我们推出了LongCoT，这是一个可扩展的基准，包含2500个专家设计的难题，涵盖化学、数学、计算机科学、国际象棋和逻辑，旨在分离并直接衡量前沿模型的长程CoT推理能力。这些问题包含一个简短的输入和一个可验证的答案；解决它们需要导航一个相互依赖的步骤图，这些步骤跨越数万到数十万个推理token。每个局部步骤对于前沿模型来说都是可行的，因此失败反映了长程推理的局限性。在发布时，最好的模型在LongCoT上的准确率低于10%（GPT 5.2：9.8%；Gemini 3 Pro：6.1%），揭示了当前能力的巨大差距。总的来说，LongCoT提供了一种严格的长程推理度量方法，用于跟踪前沿模型在较长时间内可靠推理的能力。

🔬 方法详解

问题定义：论文旨在解决现有语言模型在长程思维链推理方面的不足。现有方法在处理需要大量推理步骤、步骤之间存在复杂依赖关系的任务时，容易出现错误累积，导致最终结果不准确。痛点在于缺乏一个能够有效评估和诊断模型长程推理能力的基准。

核心思路：论文的核心思路是构建一个可扩展的基准测试集，该测试集包含大量需要长程思维链才能解决的问题。通过分析模型在这些问题上的表现，可以更准确地评估和诊断模型的长程推理能力，并为未来的研究提供指导。

技术框架：LongCoT基准测试集包含2500个专家设计的难题，涵盖化学、数学、计算机科学、国际象棋和逻辑等多个领域。每个问题都包含一个简短的输入和一个可验证的答案，解决问题需要导航一个相互依赖的步骤图。该图中的每个节点代表一个推理步骤，边代表步骤之间的依赖关系。问题的难度在于步骤数量多，推理链条长，需要模型具备强大的长程推理能力。

关键创新：LongCoT的关键创新在于其可扩展性和对长程推理的直接测量。与以往的基准测试相比，LongCoT包含的问题数量更多，推理链条更长，能够更全面地评估模型在长程推理方面的能力。此外，LongCoT的设计允许研究人员直接测量模型在每个推理步骤上的准确率，从而更深入地了解模型的推理过程。

关键设计：LongCoT中的问题由专家设计，确保问题的质量和难度。每个问题都经过精心设计，以确保解决问题需要长程思维链，并且每个推理步骤对于前沿模型来说都是可行的。此外，LongCoT还提供了一套评估指标，用于衡量模型在长程推理方面的表现，包括准确率、召回率和F1值等。

📊 实验亮点

实验结果表明，即使是当前最先进的语言模型（GPT 5.2和Gemini 3 Pro）在LongCoT上的准确率也低于10%，分别为9.8%和6.1%。这表明当前模型在长程推理方面存在显著差距，需要进一步的研究和改进。LongCoT的发布为研究人员提供了一个新的基准，可以用于评估和比较不同模型在长程推理方面的能力。

🎯 应用场景

LongCoT的研究成果可以应用于开发更强大的语言模型，使其能够更好地处理需要长程推理的任务，例如自动驾驶、医疗诊断、金融分析等。此外，LongCoT还可以用于评估和比较不同语言模型的长程推理能力，为模型选择和优化提供依据。该基准的发布将促进长程推理领域的研究进展。

📄 摘要（原文）

As language models are increasingly deployed for complex autonomous tasks, their ability to reason accurately over longer horizons becomes critical. An essential component of this ability is planning and managing a long, complex chain-of-thought (CoT). We introduce LongCoT, a scalable benchmark of 2,500 expert-designed problems spanning chemistry, mathematics, computer science, chess, and logic to isolate and directly measure the long-horizon CoT reasoning capabilities of frontier models. Problems consist of a short input with a verifiable answer; solving them requires navigating a graph of interdependent steps that span tens to hundreds of thousands of reasoning tokens. Each local step is individually tractable for frontier models, so failures reflect long-horizon reasoning limitations. At release, the best models achieve <10% accuracy (GPT 5.2: 9.8%; Gemini 3 Pro: 6.1%) on LongCoT, revealing a substantial gap in current capabilities. Overall, LongCoT provides a rigorous measure of long-horizon reasoning, tracking the ability of frontier models to reason reliably over extended periods.

LongCoT: Benchmarking Long-Horizon Chain-of-Thought Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理