START: Self-taught Reasoner with Tools
作者: Chengpeng Li, Mingfeng Xue, Zhenru Zhang, Jiaxi Yang, Beichen Zhang, Xiang Wang, Bowen Yu, Binyuan Hui, Junyang Lin, Dayiheng Liu
分类: cs.CL
发布日期: 2025-03-06 (更新: 2025-03-07)
备注: 38 pages, 5 figures and 6 tables
💡 一句话要点
START:一种自学习工具增强推理器,提升复杂推理任务性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 工具增强推理 自学习 长链思维 提示学习 拒绝采样微调
📋 核心要点
- 现有大型推理模型(LRM)依赖内部推理,易产生幻觉且效率低,难以胜任复杂推理任务。
- START通过自学习框架,利用Hint-infer和Hint-RFT,使模型具备使用外部工具进行计算、检查和调试的能力。
- 实验表明,START在多个高难度基准测试中显著优于基线模型,性能媲美SOTA开源及闭源模型。
📝 摘要(中文)
本文提出了START(Self-Taught Reasoner with Tools),一种新型的工具集成长链思维(CoT)推理LLM,旨在通过利用外部工具显著增强推理能力。START通过代码执行进行复杂计算、自我检查、探索多种方法和自我调试,从而克服了大型推理模型(LRM)仅依赖内部推理过程而导致的幻觉和效率低下问题。START的核心创新在于其自学习框架,包括Hint-infer和Hint Rejection Sampling Fine-Tuning (Hint-RFT)两种关键技术。Hint-infer通过在LRM的推理过程中插入人工设计的提示来有效激发其使用外部工具的能力,无需任何演示数据。Hint-RFT结合了Hint-infer和RFT,通过对LRM使用Hint-infer生成的工具调用推理轨迹进行评分、过滤和修改,然后对LRM进行微调。在博士水平的科学问答(GPQA)、竞赛级别的数学基准(AMC23、AIME24、AIME25)和竞赛级别的代码基准(LiveCodeBench)上,START分别实现了63.6%、95.0%、66.7%、47.1%和47.3%的准确率,显著优于基线QwQ-32B,并达到了与最先进的开源模型R1-Distill-Qwen-32B和专有模型o1-Preview相当的性能。
🔬 方法详解
问题定义:论文旨在解决大型推理模型(LRM)在复杂推理任务中,由于过度依赖内部知识和推理能力而产生的幻觉问题,以及由此导致的效率低下问题。现有方法难以有效利用外部工具进行辅助推理,限制了其解决复杂问题的能力。
核心思路:论文的核心思路是通过自学习的方式,使模型能够自主地学习如何有效地利用外部工具来辅助推理。通过引入人工设计的提示(Hint),引导模型探索使用工具的可能性,并利用拒绝采样微调(RFT)来优化模型的工具使用策略。
技术框架:START的整体框架包含两个主要阶段:Hint-infer和Hint Rejection Sampling Fine-Tuning (Hint-RFT)。首先,在Hint-infer阶段,通过在推理过程中插入提示,引导模型尝试使用外部工具。然后,在Hint-RFT阶段,利用Hint-infer生成的数据,对模型的推理轨迹进行评分、过滤和修改,并使用这些数据对模型进行微调,从而提升模型使用工具的能力。
关键创新:论文的关键创新在于提出了一种自学习框架,该框架能够使模型在没有人工标注数据的情况下,自主地学习如何有效地利用外部工具进行推理。Hint-infer方法能够有效地引导模型探索使用工具的可能性,而Hint-RFT方法则能够优化模型的工具使用策略。
关键设计:Hint-infer的关键设计在于提示的设计,需要能够有效地引导模型思考使用工具的可能性,例如提示模型“也许这里使用Python会更好”。Hint-RFT的关键设计在于如何对推理轨迹进行评分和过滤,以及如何利用这些数据对模型进行微调。论文中使用了拒绝采样的方法,选择那些工具使用效果较好的推理轨迹,并使用这些轨迹对模型进行微调。
🖼️ 关键图片
📊 实验亮点
START在GPQA上达到63.6%的准确率,在AMC23上达到95.0%,在AIME24上达到66.7%,在AIME25上达到47.1%,在LiveCodeBench上达到47.3%。这些结果显著优于基线模型QwQ-32B,并与SOTA开源模型R1-Distill-Qwen-32B和闭源模型o1-Preview的性能相当,证明了START的有效性。
🎯 应用场景
START具有广泛的应用前景,可应用于科学研究、数学问题求解、代码生成与调试等领域。通过集成各种外部工具,START能够有效解决复杂问题,提高问题解决的效率和准确性。未来,该方法有望应用于智能助手、自动化编程等领域,赋能更强大的AI应用。
📄 摘要(原文)
Large reasoning models (LRMs) like OpenAI-o1 and DeepSeek-R1 have demonstrated remarkable capabilities in complex reasoning tasks through the utilization of long Chain-of-thought (CoT). However, these models often suffer from hallucinations and inefficiencies due to their reliance solely on internal reasoning processes. In this paper, we introduce START (Self-Taught Reasoner with Tools), a novel tool-integrated long CoT reasoning LLM that significantly enhances reasoning capabilities by leveraging external tools. Through code execution, START is capable of performing complex computations, self-checking, exploring diverse methods, and self-debugging, thereby addressing the limitations of LRMs. The core innovation of START lies in its self-learning framework, which comprises two key techniques: 1) Hint-infer: We demonstrate that inserting artificially designed hints (e.g., ``Wait, maybe using Python here is a good idea.'') during the inference process of a LRM effectively stimulates its ability to utilize external tools without the need for any demonstration data. Hint-infer can also serve as a simple and effective sequential test-time scaling method; 2) Hint Rejection Sampling Fine-Tuning (Hint-RFT): Hint-RFT combines Hint-infer and RFT by scoring, filtering, and modifying the reasoning trajectories with tool invocation generated by a LRM via Hint-infer, followed by fine-tuning the LRM. Through this framework, we have fine-tuned the QwQ-32B model to achieve START. On PhD-level science QA (GPQA), competition-level math benchmarks (AMC23, AIME24, AIME25), and the competition-level code benchmark (LiveCodeBench), START achieves accuracy rates of 63.6%, 95.0%, 66.7%, 47.1%, and 47.3%, respectively. It significantly outperforms the base QwQ-32B and achieves performance comparable to the state-of-the-art open-weight model R1-Distill-Qwen-32B and the proprietary model o1-Preview.