Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking
作者: Xiaoyu Tian, Sitong Zhao, Haotian Wang, Shuaiting Chen, Yunjie Ji, Yiping Peng, Han Zhao, Xiangang Li
分类: cs.CL
发布日期: 2025-03-25
💡 一句话要点
提出多轮思考(Multi-round Thinking)方法,通过迭代优化提升LLM推理能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 推理能力 测试时扩展 多轮思考 提示工程 迭代优化 自然语言处理
📋 核心要点
- 现有LLM在处理长文本和强化学习训练效率方面存在瓶颈,限制了测试时扩展推理能力的进一步提升。
- 论文提出多轮思考方法,通过迭代地利用前一轮的答案作为提示,来逐步优化和完善LLM的推理过程。
- 实验结果表明,该方法在多个模型和基准测试中均能稳定提升性能,验证了其广泛适用性和有效性。
📝 摘要(中文)
大型语言模型(LLM)如OpenAI-o1和DeepSeek-R1,已展示了测试时扩展的有效性,即通过扩展推理过程显著提升模型性能。然而,当前模型在处理长文本和强化学习(RL)训练效率方面存在局限性。为了解决这些问题,我们提出了一种简单而有效的测试时扩展方法:多轮思考(Multi-round Thinking)。该方法通过利用先前的答案作为后续轮次的提示,迭代地改进模型推理。在包括QwQ-32B和DeepSeek-R1在内的多个模型上的大量实验表明,在AIME 2024、MATH-500、GPQA-diamond和LiveCodeBench等各种基准测试中,性能均得到持续提升。例如,QwQ-32B在AIME 2024数据集上的准确率从80.3%(第一轮)提高到82.1%(第二轮),而DeepSeek-R1也表现出类似的提升,从79.7%提高到82.0%。这些结果证实,多轮思考是一种广泛适用、直接的方法,可以实现模型性能的稳定提升,突显了其在测试时扩展技术未来发展中的潜力。关键提示:{原始问题提示} 助手的先前答案是:
🔬 方法详解
问题定义:论文旨在解决大型语言模型在测试时扩展推理过程中,由于长文本处理能力和强化学习训练效率的限制,导致性能提升受阻的问题。现有方法通常依赖于复杂的模型结构或大量的训练数据,难以在实际应用中有效提升推理能力。
核心思路:论文的核心思路是利用模型自身生成的答案,通过迭代的方式进行自我修正和完善。每一轮的答案都作为下一轮的提示,引导模型更深入地思考和推理,从而逐步逼近正确答案。这种方法类似于人类的“反思”过程,能够有效地利用模型已有的知识和能力。
技术框架:多轮思考方法的核心流程如下:1) 给定原始问题提示;2) 模型生成第一轮答案;3) 将第一轮答案作为提示的一部分,与原始问题提示结合,输入模型进行第二轮推理;4) 重复步骤3,进行多轮迭代,直到达到预设的轮数或满足停止条件;5) 输出最终答案。关键提示词为:{原始问题提示} 助手的先前答案是:
关键创新:该方法最重要的创新在于其简单性和有效性。它不需要修改模型结构或进行额外的训练,而是通过巧妙地利用提示工程,实现了推理能力的提升。与传统的单轮推理相比,多轮思考能够让模型更充分地利用已有的知识,避免陷入局部最优解。
关键设计:该方法的关键设计在于提示词的设计,即如何将上一轮的答案有效地融入到下一轮的提示中。论文中使用的提示词模板为:“{原始问题提示} 助手的先前答案是:
🖼️ 关键图片
📊 实验亮点
实验结果显示,多轮思考方法在多个模型和基准测试中均取得了显著的性能提升。例如,在AIME 2024数据集上,QwQ-32B模型的准确率从80.3%(第一轮)提高到82.1%(第二轮),DeepSeek-R1模型的准确率从79.7%提高到82.0%。这些结果表明,该方法能够有效地提升LLM的推理能力,具有广泛的适用性。
🎯 应用场景
该研究成果可广泛应用于需要复杂推理能力的自然语言处理任务中,例如数学问题求解、代码生成、知识问答等。通过多轮思考,可以显著提升LLM在这些任务中的性能,提高其解决实际问题的能力。未来,该方法有望应用于智能客服、教育辅导、科研助手等领域,为用户提供更智能、更高效的服务。
📄 摘要(原文)
Recent advances in large language models (LLMs), such as OpenAI-o1 and DeepSeek-R1, have demonstrated the effectiveness of test-time scaling, where extended reasoning processes substantially enhance model performance. Despite this, current models are constrained by limitations in handling long texts and reinforcement learning (RL) training efficiency. To address these issues, we propose a simple yet effective test-time scaling approach Multi-round Thinking. This method iteratively refines model reasoning by leveraging previous answers as prompts for subsequent rounds. Extensive experiments across multiple models, including QwQ-32B and DeepSeek-R1, consistently show performance improvements on various benchmarks such as AIME 2024, MATH-500, GPQA-diamond, and LiveCodeBench. For instance, the accuracy of QwQ-32B improved from 80.3% (Round 1) to 82.1% (Round 2) on the AIME 2024 dataset, while DeepSeek-R1 showed a similar increase from 79.7% to 82.0%. These results confirm that Multi-round Thinking is a broadly applicable, straightforward approach to achieving stable enhancements in model performance, underscoring its potential for future developments in test-time scaling techniques. The key prompt: {Original question prompt} The assistant's previous answer is:
{last round answer} , and please re-answer.