The Majority is not always right: RL training for solution aggregation

📄 arXiv: 2509.06870v1 📥 PDF

作者: Wenting Zhao, Pranjal Aggarwal, Swarnadeep Saha, Asli Celikyilmaz, Jason Weston, Ilia Kulikov

分类: cs.CL

发布日期: 2025-09-08


💡 一句话要点

提出AggLM,通过强化学习训练聚合模型,提升LLM在推理任务中的表现。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 解决方案聚合 推理任务 奖励模型

📋 核心要点

  1. 现有LLM聚合方法依赖多数投票或奖励模型排序,效果有限,无法充分利用多个解的信息。
  2. 提出AggLM,使用强化学习训练聚合模型,学习审查、协调和综合候选解,生成最终答案。
  3. 实验表明,AggLM优于现有基线方法,且能泛化到更强的模型,同时减少了token使用量。

📝 摘要(中文)

通过生成多个独立解并选择或聚合它们来扩大测试时计算规模,已成为提高大型语言模型(LLM)在具有挑战性的推理任务上的性能的核心范例。然而,现有工作主要依赖于简单的多数投票或奖励模型排序来聚合解决方案,这些方法可能只能产生有限的收益。本文提出将聚合作为一种显式的推理技能来学习:给定一组候选解,我们训练一个聚合模型,使用来自可验证奖励的强化学习来审查、协调和综合最终的正确答案。一个关键要素是仔细平衡简单和困难的训练样本,使模型既能学习恢复少数但正确的答案,也能学习简单的多数正确答案。实验结果表明,我们的方法AggLM在多个基准测试中优于强大的基于规则的和奖励模型的基线。此外,它可以有效地推广到来自不同模型的解决方案,包括比训练数据中包含的更强的模型,同时需要的token数量远少于使用更多解决方案的多数投票。

🔬 方法详解

问题定义:现有的大型语言模型在解决复杂推理任务时,通常会生成多个候选答案,然后通过多数投票或奖励模型排序等方式进行聚合。然而,这些简单的聚合方法无法充分利用所有候选答案中的信息,尤其是在存在“少数派真理”的情况下,容易被错误答案淹没。因此,如何有效地聚合多个候选答案,从而提高LLM的推理能力,是一个亟待解决的问题。

核心思路:本文的核心思路是将聚合过程视为一个推理过程,并训练一个专门的聚合模型来执行这个过程。该模型能够审查、协调和综合多个候选答案,从而生成最终的正确答案。通过强化学习,模型可以学习到如何识别和利用“少数派真理”,并避免被多数错误答案所误导。

技术框架:AggLM的整体框架包括以下几个主要步骤:1) 生成多个候选答案:使用一个或多个LLM生成多个独立的候选答案。2) 训练聚合模型:使用强化学习训练一个聚合模型,该模型以所有候选答案作为输入,并输出最终的答案。3) 推理:在测试时,使用训练好的聚合模型对生成的候选答案进行聚合,得到最终的答案。

关键创新:本文最重要的技术创新点在于将聚合过程建模为一个强化学习问题,并训练一个专门的聚合模型来解决这个问题。与传统的聚合方法相比,AggLM能够更好地利用所有候选答案中的信息,并学习到如何识别和利用“少数派真理”。此外,AggLM还可以泛化到来自不同模型的解决方案,包括比训练数据中包含的更强的模型。

关键设计:在训练聚合模型时,本文采用了以下关键设计:1) 奖励函数:使用可验证的奖励函数来指导模型的学习,例如,如果模型生成的答案与正确答案一致,则给予正向奖励,否则给予负向奖励。2) 训练样本平衡:仔细平衡简单和困难的训练样本,使模型既能学习恢复少数但正确的答案,也能学习简单的多数正确答案。3) 模型结构:聚合模型可以使用各种不同的神经网络结构,例如,Transformer、LSTM等。具体选择取决于具体的任务和数据集。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AggLM在多个基准测试中取得了显著的性能提升,优于基于规则和奖励模型的基线方法。例如,在某些任务上,AggLM的准确率比多数投票提高了10%以上。此外,AggLM还能够泛化到来自更强模型的解决方案,并且需要的token数量远少于使用更多解决方案的多数投票。

🎯 应用场景

该研究成果可广泛应用于需要LLM进行复杂推理的场景,例如问答系统、代码生成、数学问题求解等。通过提高LLM的推理准确性和效率,可以提升用户体验,并降低计算成本。未来,该方法还可以扩展到其他类型的任务,例如图像识别、语音识别等。

📄 摘要(原文)

Scaling up test-time compute, by generating multiple independent solutions and selecting or aggregating among them, has become a central paradigm for improving large language models (LLMs) on challenging reasoning tasks. While most prior work relies on simple majority voting or reward model ranking to aggregate solutions, these approaches may only yield limited benefits. In this work, we propose to learn aggregation as an explicit reasoning skill: given a set of candidate solutions, we train an aggregator model to review, reconcile, and synthesize a final, correct answer using reinforcement learning from verifiable rewards. A key ingredient is careful balancing of easy and hard training examples, allowing the model to learn both to recover minority-but-correct answers as well as easy majority-correct answers. Empirically, we find our method, AggLM, outperforms both strong rule-based and reward-model baselines, across multiple benchmarks. Furthermore, it generalizes effectively to solutions from differing models, including stronger ones than contained in the training data, all while requiring substantially fewer tokens than majority voting with larger numbers of solutions.