A Survey on Test-Time Scaling in Large Language Models: What, How, Where, and How Well?
作者: Qiyuan Zhang, Fuyuan Lyu, Zexu Sun, Lei Wang, Weixu Zhang, Wenyue Hua, Haolun Wu, Zhihan Guo, Yufei Wang, Niklas Muennighoff, Irwin King, Xue Liu, Chen Ma
分类: cs.CL, cs.AI
发布日期: 2025-03-31 (更新: 2025-05-04)
备注: v3: Expand Agentic and SFT Chapters. Build Website for better visualization
🔗 代码/项目: GITHUB
💡 一句话要点
对大语言模型测试时扩展(TTS)进行全面综述,分析其原理、方法、应用及效果。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 测试时扩展 测试时计算 模型推理 综述 计算扩展 自适应计算
📋 核心要点
- 现有方法难以系统性地理解和组织测试时扩展(TTS)领域内快速涌现的各种技术和方法。
- 论文构建了一个多维框架,从扩展对象、扩展方式、扩展位置和扩展效果四个维度对TTS进行系统性分析。
- 通过对现有TTS方法、应用场景和评估指标进行全面回顾,总结了TTS的发展趋势,并为实际应用提供了指导。
📝 摘要(中文)
随着预训练时代对计算规模(数据和参数)的热情逐渐减退,测试时扩展(TTS),也称为“测试时计算”,已成为一个重要的研究焦点。最近的研究表明,TTS可以进一步激发大型语言模型(LLM)的解决问题的能力,不仅在数学和编码等专业推理任务中,而且在开放式问答等一般任务中,都取得了重大突破。然而,尽管最近在该领域的研究工作激增,但仍然迫切需要一个全面的综述,以提供系统的理解。为了填补这一空白,我们提出了一个统一的多维框架,该框架围绕TTS研究的四个核心维度构建:扩展什么、如何扩展、在哪里扩展以及扩展效果如何。在此分类法的基础上,我们对方法、应用场景和评估方面进行了广泛的综述,并提出了一个有组织的分解,突出了各个技术在更广泛的TTS领域中的独特功能作用。通过分析,我们提炼了迄今为止TTS的主要发展轨迹,并为实际部署提供了实践指导。此外,我们还确定了几个开放的挑战,并为有希望的未来方向提供了见解,包括进一步扩展、阐明技术的功能本质、推广到更多任务以及更多归因。我们的代码仓库可在https://github.com/testtimescaling/testtimescaling.github.io/上找到。
🔬 方法详解
问题定义:论文旨在解决对大语言模型测试时扩展(TTS)领域缺乏系统性理解的问题。现有方法和研究成果分散,缺乏统一的框架进行组织和分析,导致研究人员难以把握TTS的整体发展趋势和关键技术。
核心思路:论文的核心思路是构建一个多维的分类框架,将现有的TTS方法按照“扩展什么”、“如何扩展”、“在哪里扩展”和“扩展效果如何”四个维度进行划分和组织。通过这个框架,可以系统性地分析各种TTS技术的原理、应用和优缺点,从而更好地理解TTS领域的发展现状和未来趋势。
技术框架:论文构建的TTS研究框架包含以下四个核心维度: 1. 扩展什么 (What to Scale):指的是在测试时可以扩展的计算资源,例如模型参数、数据规模、计算量等。 2. 如何扩展 (How to Scale):指的是具体的扩展方法,例如模型集成、自适应计算、prompt工程等。 3. 在哪里扩展 (Where to Scale):指的是扩展操作发生的位置,例如输入层、中间层、输出层等。 4. 扩展效果如何 (How Well to Scale):指的是评估扩展效果的指标,例如准确率、效率、鲁棒性等。
论文基于这个框架,对现有的TTS方法进行了分类和分析,并总结了各种方法的优缺点和适用场景。
关键创新:论文的主要创新在于提出了一个统一的多维框架,用于系统性地理解和组织TTS领域的研究成果。这个框架能够帮助研究人员更好地把握TTS的整体发展趋势,并为未来的研究提供指导。与以往的综述文章相比,该论文更加注重对TTS技术的原理和应用进行深入分析,并提出了具有实践指导意义的建议。
关键设计:论文的关键设计在于四个维度的划分,这四个维度涵盖了TTS研究的各个方面,能够全面地描述TTS技术的特点和功能。此外,论文还对每个维度下的具体方法进行了详细的分析和比较,并总结了各种方法的优缺点和适用场景。论文还提供了实际部署的指导,并指出了未来研究的潜在方向。
🖼️ 关键图片
📊 实验亮点
该综述论文系统性地总结了测试时扩展(TTS)领域的研究进展,构建了一个多维框架用于分析和组织现有的TTS方法。通过对各种方法的优缺点和适用场景进行比较,为实际应用提供了有价值的指导。此外,论文还指出了TTS领域未来研究的潜在方向,例如进一步扩展、阐明技术的功能本质、推广到更多任务等。
🎯 应用场景
该研究成果可应用于各种需要提升大语言模型推理能力的场景,例如智能客服、机器翻译、文本摘要、代码生成等。通过选择合适的测试时扩展策略,可以显著提高LLM在特定任务上的性能,从而提升用户体验和工作效率。该综述为研究人员和工程师提供了全面的指导,有助于他们更好地理解和应用TTS技术。
📄 摘要(原文)
As enthusiasm for scaling computation (data and parameters) in the pretraining era gradually diminished, test-time scaling (TTS), also referred to as ``test-time computing'' has emerged as a prominent research focus. Recent studies demonstrate that TTS can further elicit the problem-solving capabilities of large language models (LLMs), enabling significant breakthroughs not only in specialized reasoning tasks, such as mathematics and coding, but also in general tasks like open-ended Q&A. However, despite the explosion of recent efforts in this area, there remains an urgent need for a comprehensive survey offering a systemic understanding. To fill this gap, we propose a unified, multidimensional framework structured along four core dimensions of TTS research: what to scale, how to scale, where to scale, and how well to scale. Building upon this taxonomy, we conduct an extensive review of methods, application scenarios, and assessment aspects, and present an organized decomposition that highlights the unique functional roles of individual techniques within the broader TTS landscape. From this analysis, we distill the major developmental trajectories of TTS to date and offer hands-on guidelines for practical deployment. Furthermore, we identify several open challenges and offer insights into promising future directions, including further scaling, clarifying the functional essence of techniques, generalizing to more tasks, and more attributions. Our repository is available on https://github.com/testtimescaling/testtimescaling.github.io/