Recursive Self-Aggregation Unlocks Deep Thinking in Large Language Models

📄 arXiv: 2509.26626v1 📥 PDF

作者: Siddarth Venkatraman, Vineet Jain, Sarthak Mittal, Vedant Shah, Johan Obando-Ceron, Yoshua Bengio, Brian R. Bartoldson, Bhavya Kailkhura, Guillaume Lajoie, Glen Berseth, Nikolay Malkin, Moksh Jain

分类: cs.LG

发布日期: 2025-09-30

备注: 24 pages, 9 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出递归自聚合(RSA)方法,提升大语言模型在推理时的深度思考能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 推理 测试时扩展 递归自聚合 强化学习

📋 核心要点

  1. 现有大语言模型推理方法在测试时扩展计算资源时,要么并行选择多个独立解,要么串行进行自精炼,存在效率和效果上的不足。
  2. RSA方法借鉴进化算法思想,通过递归地聚合候选推理链的子集,生成更优的解群体,从而实现并行和串行扩展的优势结合。
  3. 实验表明,RSA在多种任务和模型上均能显著提升性能,尤其是在计算资源有限的情况下,能使小模型达到甚至超越大模型的推理能力。

📝 摘要(中文)

本文提出了一种名为递归自聚合(RSA)的测试时扩展方法,该方法受到进化方法的启发,结合了并行和顺序扩展的优点,旨在提升大型语言模型(LLM)的性能。RSA的每个步骤都通过聚合子集来改进候选推理链的群体,从而产生改进的解决方案群体,然后将其用作下一次迭代的候选池。RSA利用了推理链中嵌入的丰富信息(不仅仅是最终答案),并能够从不同思维链中部分正确的中间步骤进行引导。实验结果表明,RSA在不同的任务、模型系列和大小上,随着计算预算的增加,性能显著提高。值得注意的是,RSA使Qwen3-4B-Instruct-2507能够实现与更大的推理模型(包括DeepSeek-R1和o3-mini (high))相媲美的性能,同时在AIME-25、HMMT-25、Reasoning Gym、LiveCodeBench-v6和SuperGPQA上优于纯粹的并行和顺序扩展策略。此外,我们还证明,通过一种新颖的聚合感知强化学习方法训练模型来组合解决方案可以显著提高性能。代码可在https://github.com/HyperPotatoNeo/RSA 获取。

🔬 方法详解

问题定义:现有的大语言模型在推理时,可以通过增加计算量来提高性能。现有的方法主要分为两种:并行方法,即生成多个独立的解,然后选择最优的;串行方法,即通过自精炼逐步改进解。这两种方法都有局限性,并行方法无法利用中间推理步骤的信息,串行方法则可能陷入局部最优解。因此,如何更有效地利用推理过程中的信息,并结合并行和串行方法的优点,是一个亟待解决的问题。

核心思路:RSA的核心思路是模拟进化过程中的自然选择和遗传变异。它维护一个候选解的群体,并通过递归地聚合这些解的子集来生成新的、更优的解。这种聚合过程可以有效地利用中间推理步骤的信息,并避免陷入局部最优解。通过多轮迭代,RSA可以逐步提升解的质量,从而提高模型的推理能力。

技术框架:RSA的整体流程如下:1. 初始化:生成一个包含多个候选推理链的初始群体。2. 聚合:从群体中随机选择子集,并使用聚合函数将它们组合成新的推理链。3. 选择:根据某种评估标准(例如,语言模型的置信度)选择表现最好的推理链,组成新的群体。4. 迭代:重复步骤2和3,直到达到预定的迭代次数或满足某种停止条件。

关键创新:RSA的关键创新在于其递归自聚合机制。与传统的并行和串行方法不同,RSA能够有效地利用中间推理步骤的信息,并结合并行和串行方法的优点。此外,RSA还提出了一种新的聚合感知强化学习方法,用于训练模型来更好地组合解决方案。

关键设计:RSA的关键设计包括:1. 聚合函数:用于将多个推理链组合成新的推理链。可以使用多种聚合函数,例如,投票、平均或加权平均。2. 评估标准:用于评估推理链的质量。可以使用多种评估标准,例如,语言模型的置信度、答案的正确性或推理过程的流畅性。3. 迭代次数:决定RSA的计算量。迭代次数越多,计算量越大,但性能也可能越高。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RSA在AIME-25、HMMT-25、Reasoning Gym、LiveCodeBench-v6和SuperGPQA等多个基准测试中均取得了显著的性能提升。例如,RSA使Qwen3-4B-Instruct-2507模型在这些基准测试中达到了与DeepSeek-R1和o3-mini (high)等更大模型相媲美的性能,同时优于纯粹的并行和顺序扩展策略。此外,通过聚合感知强化学习训练,性能得到了进一步提升。

🎯 应用场景

RSA方法可应用于各种需要深度推理的大语言模型任务,例如数学问题求解、常识推理、代码生成等。该方法尤其适用于计算资源受限的场景,可以提升小模型的推理能力,使其达到甚至超越大模型的水平。未来,RSA有望成为一种通用的测试时扩展方法,广泛应用于各种大语言模型应用中。

📄 摘要(原文)

Test-time scaling methods improve the capabilities of large language models (LLMs) by increasing the amount of compute used during inference to make a prediction. Inference-time compute can be scaled in parallel by choosing among multiple independent solutions or sequentially through self-refinement. We propose Recursive Self-Aggregation (RSA), a test-time scaling method inspired by evolutionary methods that combines the benefits of both parallel and sequential scaling. Each step of RSA refines a population of candidate reasoning chains through aggregation of subsets to yield a population of improved solutions, which are then used as the candidate pool for the next iteration. RSA exploits the rich information embedded in the reasoning chains -- not just the final answers -- and enables bootstrapping from partially correct intermediate steps within different chains of thought. Empirically, RSA delivers substantial performance gains with increasing compute budgets across diverse tasks, model families and sizes. Notably, RSA enables Qwen3-4B-Instruct-2507 to achieve competitive performance with larger reasoning models, including DeepSeek-R1 and o3-mini (high), while outperforming purely parallel and sequential scaling strategies across AIME-25, HMMT-25, Reasoning Gym, LiveCodeBench-v6, and SuperGPQA. We further demonstrate that training the model to combine solutions via a novel aggregation-aware reinforcement learning approach yields significant performance gains. Code available at https://github.com/HyperPotatoNeo/RSA.