ReThinker: Scientific Reasoning by Rethinking with Guided Reflection and Confidence Control

📄 arXiv: 2602.04496v1 📥 PDF

作者: Zhentao Tang, Yuqi Cui, Shixiong Kai, Wenqian Zhao, Ke Ye, Xing Li, Anxin Tian, Zehua Pei, Hui-Ling Zhen, Shoubo Hu, Xiaoguang Li, Yunhe Wang, Mingxuan Yuan

分类: cs.AI

发布日期: 2026-02-04


💡 一句话要点

ReThinker:通过引导式反思和置信度控制实现科学推理

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 科学推理 大型语言模型 智能体框架 置信度控制 工具使用

📋 核心要点

  1. 现有大型语言模型在科学推理任务中面临挑战,尤其是在复杂推理和工具使用方面表现不足。
  2. ReThinker通过置信度感知的智能体框架,动态分配计算资源,实现自适应工具调用和多维反思。
  3. ReThinker在HLE、GAIA和XBench等基准测试中,显著超越了现有模型,达到了最先进的性能。

📝 摘要(中文)

大型语言模型在专家级科学推理方面仍然面临挑战,尤其是在像人类最后一考(HLE)这样的基准测试中。刚性的工具流程、脆弱的多智能体协调和低效的测试时扩展通常限制了性能。我们引入了ReThinker,这是一个置信度感知的智能体框架,它通过分阶段的求解器-评论员-选择器架构来协调检索、工具使用和多智能体推理。ReThinker不是遵循固定的流程,而是根据模型置信度动态分配计算资源,从而实现自适应的工具调用、引导式多维反思和稳健的置信度加权选择。为了支持无需人工标注的可扩展训练,我们进一步提出了反向数据合成流程和自适应轨迹回收策略,将成功的推理轨迹转化为高质量的监督。在HLE、GAIA和XBench上的实验表明,ReThinker始终优于具有工具的先进基础模型和现有的深度研究系统,在专家级推理任务上取得了最先进的结果。

🔬 方法详解

问题定义:现有的大型语言模型在解决复杂的科学推理问题时,往往依赖于固定的工具流程和多智能体协作模式,这些方法缺乏灵活性,难以适应不同问题的需求。此外,测试时的扩展性也存在问题,难以处理大规模的推理任务。这些痛点导致模型在如HLE等高难度基准测试上的表现不佳。

核心思路:ReThinker的核心思路是引入一个置信度感知的智能体框架,该框架能够根据模型自身的置信度动态地调整计算资源的分配。通过这种方式,模型可以更加专注于解决那些它认为更具挑战性的问题,并自适应地调用工具和进行反思。这种动态调整的机制使得模型能够更加高效地利用计算资源,并提升推理的准确性。

技术框架:ReThinker采用分阶段的Solver-Critic-Selector架构。Solver负责生成初步的解决方案,Critic负责评估解决方案的质量并提供反馈,Selector则根据Critic的评估结果选择最佳的解决方案。整个框架通过迭代的方式不断优化解决方案,直到达到预定的置信度阈值或计算资源上限。此外,ReThinker还包括一个反向数据合成流程和一个自适应轨迹回收策略,用于生成高质量的训练数据。

关键创新:ReThinker最重要的技术创新在于其置信度感知的动态计算资源分配机制。与传统的固定流程方法不同,ReThinker能够根据模型自身的置信度动态地调整计算资源的分配,从而更加高效地解决问题。此外,反向数据合成流程和自适应轨迹回收策略也为模型的训练提供了高质量的监督信号。

关键设计:ReThinker的关键设计包括:1) Solver、Critic和Selector的具体实现方式,例如使用的模型结构和损失函数;2) 置信度评估的具体方法,例如使用softmax输出的概率值作为置信度;3) 动态计算资源分配的策略,例如根据置信度调整工具调用的频率和反思的次数;4) 反向数据合成流程和自适应轨迹回收策略的具体实现细节,例如如何生成高质量的训练数据。

📊 实验亮点

ReThinker在HLE、GAIA和XBench等基准测试中取得了显著的性能提升。例如,在HLE测试中,ReThinker超越了现有最先进的模型,取得了state-of-the-art的结果。实验结果表明,ReThinker的置信度感知机制和动态计算资源分配策略能够有效地提升模型的推理能力。此外,反向数据合成流程和自适应轨迹回收策略也为模型的训练提供了高质量的监督信号,进一步提升了模型的性能。

🎯 应用场景

ReThinker的研究成果可以应用于多个领域,例如科学研究、教育和智能助手。在科学研究中,ReThinker可以帮助研究人员自动推理和解决复杂的科学问题。在教育领域,ReThinker可以作为智能辅导系统,帮助学生理解和掌握科学知识。在智能助手领域,ReThinker可以提供更准确和可靠的科学信息服务。未来,ReThinker有望成为推动科学发现和知识传播的重要工具。

📄 摘要(原文)

Expert-level scientific reasoning remains challenging for large language models, particularly on benchmarks such as Humanity's Last Exam (HLE), where rigid tool pipelines, brittle multi-agent coordination, and inefficient test-time scaling often limit performance. We introduce ReThinker, a confidence-aware agentic framework that orchestrates retrieval, tool use, and multi-agent reasoning through a stage-wise Solver-Critic-Selector architecture. Rather than following a fixed pipeline, ReThinker dynamically allocates computation based on model confidence, enabling adaptive tool invocation, guided multi-dimensional reflection, and robust confidence-weighted selection. To support scalable training without human annotation, we further propose a reverse data synthesis pipeline and an adaptive trajectory recycling strategy that transform successful reasoning traces into high-quality supervision. Experiments on HLE, GAIA, and XBench demonstrate that ReThinker consistently outperforms state-of-the-art foundation models with tools and existing deep research systems, achieving state-of-the-art results on expert-level reasoning tasks.