Think Fast: Estimating No-CoT Task-Completion Time Horizons of Frontier AI Models
作者: Dewi Gould, Francis Rhys Ward, Anders Cairns Woodruff, Rauno Arike, Josh Hills, Alex Serrano, Ida Caspary, Jason Ross Brown, Jo J. Jiao, Patrick Leask, Twm Stone, Ram Potham, Ionut Gabriel Stan, Harry Mayne, Simeon Hellsten, Shubhorup Biswas, Ariana Azarbal, William L. Anderson, Elle Najt, Ryan Greenblatt, Julian Stastny
分类: cs.AI
发布日期: 2026-06-05
💡 一句话要点
提出无思维链推理时间估计方法以监控前沿AI模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 前沿AI 推理能力 任务完成时间 思维链推理 模型评估 安全监控 性能优化
📋 核心要点
- 核心问题:现有方法依赖思维链推理监控,无法应对模型内部复杂推理的挑战。
- 方法要点:提出无思维链推理的任务完成时间和推理标记数量的估算方法,以评估模型性能。
- 实验或效果:发现前沿模型的无CoT任务完成时间逐年翻倍,GPT-5.5的时间和标记数量显著提升。
📝 摘要(中文)
许多确保前沿AI模型安全的努力依赖于监测其思维链推理(CoT)。如果模型能够在没有显式思维标记的情况下进行复杂推理,将会削弱这种监督。本文通过对超过30,000个问题的测试,评估前沿模型在无CoT情况下的推理能力,并估算其完成任务所需的时间和推理标记数量。研究发现,前沿模型的无CoT任务完成时间在过去六年中大致每年翻倍,GPT-5.5的任务完成时间超过3分钟,推理标记数量超过1,500个。预计到2028年,前沿模型的无CoT任务完成时间可能超过7分钟,2030年可能达到25分钟,尽管这些预测存在较大不确定性。建议前沿开发者对此进行明确跟踪。
🔬 方法详解
问题定义:本文旨在解决如何有效监测前沿AI模型在无思维链推理情况下的推理能力。现有方法主要依赖于思维链推理的监控,无法适应模型内部推理能力的提升。
核心思路:提出一种新的评估框架,通过估算无CoT情况下的任务完成时间和推理标记数量,来衡量模型的推理能力。这种设计能够更全面地反映模型的实际性能。
技术框架:整体架构包括数据收集、模型评估和结果分析三个主要模块。首先,通过收集超过30,000个问题,涵盖多个领域;其次,评估模型在无CoT情况下的表现;最后,分析结果并进行时间和标记数量的估算。
关键创新:最重要的技术创新在于提出了无CoT任务完成时间和推理标记数量的估算方法。这一方法与传统依赖思维链推理的评估方式本质上不同,能够更好地适应模型的演变。
关键设计:在参数设置上,采用了50%任务完成率作为评估标准,并引入了o3-mini推理标记的概念,以量化模型在无CoT情况下的推理能力。
📊 实验亮点
实验结果显示,前沿模型的无CoT任务完成时间在过去六年中大致每年翻倍,GPT-5.5的任务完成时间超过3分钟,推理标记数量超过1,500个。预计到2028年,前沿模型的无CoT任务完成时间可能超过7分钟,2030年可能达到25分钟,这些数据为模型性能的长期监控提供了重要依据。
🎯 应用场景
该研究的潜在应用领域包括AI模型的安全监控、性能评估和优化。通过准确估算无思维链推理的任务完成时间,开发者可以更好地理解模型的推理能力,从而在实际应用中提高模型的安全性和可靠性。未来,这一方法可能推动AI模型在复杂任务中的应用,确保其在关键领域的安全性。
📄 摘要(原文)
Many efforts to ensure frontier AI models are safe rely on monitoring their chain-of-thought (CoT) reasoning. If models become able to perform sufficiently complex reasoning internally, without explicit thinking tokens, this would undermine such oversight. We measure how well frontier models reason without CoT across a suite of over 30,000 questions spanning 43 benchmarks in domains including math, coding, puzzles, causality, theory-of-mind, and strategic reasoning. To compare models against humans, we estimate the $50\%$-task-completion time horizon (TH): the human time required for tasks a model completes with $50\%$ success rate. We complement this with a $50\%$ reasoning token horizon: the minimum number of o3-mini reasoning tokens needed for tasks a model solves with $50\%$ success rate. We find that the no-CoT $50\%$ TH of frontier models has been doubling roughly every year over the past six years, with GPT-5.5's TH reaching over 3 minutes and reasoning token horizon exceeding 1,500 tokens. Our median estimates predict that frontier no-CoT THs could exceed 7 minutes by 2028, and 25 minutes by 2030, though these projections carry substantial uncertainty. We recommend frontier developers track this explicitly.