Test-time Recursive Thinking: Self-Improvement without External Feedback
作者: Yufan Zhuang, Chandan Singh, Liyuan Liu, Yelong Shen, Dinghuai Zhang, Jingbo Shang, Jianfeng Gao, Weizhu Chen
分类: cs.CL
发布日期: 2026-02-03
💡 一句话要点
提出测试时递归思考(TRT),实现大语言模型无需额外训练的自我提升。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 自我改进 测试时推理 递归思考 知识积累
📋 核心要点
- 现有大型语言模型推理能力提升主要依赖于强化学习和可验证的奖励,但训练成本高昂。
- TRT框架通过迭代生成、知识积累和自我验证信号,使模型在测试阶段实现自我改进,无需额外训练。
- 实验表明,TRT使开源模型在AIME-25/24上达到100%准确率,闭源模型在LiveCodeBench上提升显著。
📝 摘要(中文)
本文探讨了大型语言模型(LLMs)在无需额外训练的情况下进行自我提升的可能性。作者发现此类系统面临两个核心挑战:(i)高效生成多样化、高质量的候选解决方案,以及(ii)在缺乏真实标签监督的情况下可靠地选择正确答案。为了应对这些挑战,作者提出了测试时递归思考(TRT),这是一种迭代的自我改进框架,它将生成过程建立在特定于 rollout 的策略、累积的知识和自我生成的验证信号之上。通过使用 TRT,开源模型在 AIME-25/24 上达到了 100% 的准确率,并且在 LiveCodeBench 最困难的问题上,闭源模型在没有外部反馈的情况下提高了 10.4-14.8 个百分点。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在推理任务中,如何在测试阶段,无需额外训练或外部反馈的情况下,实现自我改进的问题。现有方法依赖于大量的训练数据和强化学习,成本高昂,且泛化能力可能受限。此外,在缺乏ground truth的情况下,如何可靠地选择正确的答案也是一个挑战。
核心思路:论文的核心思路是利用语言模型自身的推理能力,通过迭代生成、知识积累和自我验证,逐步改进答案。模型在测试时进行多次“思考”(生成候选答案),并利用自身知识和生成的验证信号来评估和选择最佳答案。这种递归思考的过程模拟了人类解决问题的过程,即不断尝试、反思和改进。
技术框架:TRT框架包含以下主要阶段:1) 策略引导的生成:利用不同的策略(例如,不同的prompting方法)生成多个候选答案。2) 知识积累:将每次迭代中获得的知识(例如,中间步骤、验证信号)存储起来,并在后续迭代中利用。3) 自我验证:利用语言模型自身的推理能力,对候选答案进行评估和验证,生成验证信号。4) 答案选择:基于验证信号和积累的知识,选择最佳答案。整个过程迭代进行,直到达到预定的迭代次数或满足停止条件。
关键创新:TRT的关键创新在于它能够在测试阶段,无需外部反馈的情况下,利用语言模型自身的推理能力进行自我改进。与传统的训练方法相比,TRT更加高效和灵活,因为它不需要大量的训练数据和计算资源。此外,TRT还引入了自我验证机制,使得模型能够更加可靠地选择正确的答案。
关键设计:TRT的具体实现细节可能因任务而异。例如,在数学推理任务中,可以使用不同的prompting方法来生成不同的解题步骤,并利用语言模型来验证每个步骤的正确性。在代码生成任务中,可以使用不同的代码生成策略,并利用单元测试来验证生成的代码是否正确。关键参数包括迭代次数、生成候选答案的数量、验证信号的权重等。损失函数的设计取决于具体的任务和验证方法。
📊 实验亮点
实验结果表明,TRT框架能够显著提升大型语言模型在各种推理任务上的性能。例如,在AIME-25/24数据集上,使用TRT的开源模型达到了100%的准确率。在LiveCodeBench数据集上,闭源模型在没有外部反馈的情况下,性能提升了10.4-14.8个百分点。这些结果表明,TRT是一种有效的自我改进方法,能够充分利用语言模型自身的推理能力。
🎯 应用场景
该研究成果可广泛应用于需要复杂推理和问题解决能力的领域,例如数学解题、代码生成、逻辑推理、问答系统等。通过TRT框架,可以提升现有大型语言模型在这些领域的性能,并降低对大量训练数据的依赖。此外,该方法还可以应用于机器人控制、自动驾驶等需要实时决策的场景,提高系统的鲁棒性和可靠性。
📄 摘要(原文)
Modern Large Language Models (LLMs) have shown rapid improvements in reasoning capabilities, driven largely by reinforcement learning (RL) with verifiable rewards. Here, we ask whether these LLMs can self-improve without the need for additional training. We identify two core challenges for such systems: (i) efficiently generating diverse, high-quality candidate solutions, and (ii) reliably selecting correct answers in the absence of ground-truth supervision. To address these challenges, we propose Test-time Recursive Thinking (TRT), an iterative self-improvement framework that conditions generation on rollout-specific strategies, accumulated knowledge, and self-generated verification signals. Using TRT, open-source models reach 100% accuracy on AIME-25/24, and on LiveCodeBench's most difficult problems, closed-source models improve by 10.4-14.8 percentage points without external feedback.