Beyond Majority Voting: Efficient Best-Of-N with Radial Consensus Score

📄 arXiv: 2604.12196v1 📥 PDF

作者: Manh Nguyen, Sunil Gupta, Hung Le

分类: cs.CL

发布日期: 2026-04-14


💡 一句话要点

提出基于径向共识评分的高效Best-of-N方法,提升LLM答案选择的可靠性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 答案选择 语义共识 径向共识评分 Fréchet均值

📋 核心要点

  1. 现有LLM答案选择方法,如自洽性投票和概率方法,难以有效捕捉答案间的关系,易受表面多数影响。
  2. 提出径向共识评分(RCS)方法,通过计算答案嵌入的加权Fréchet均值,衡量语义共识并排序候选答案。
  3. 实验表明,RCS在多个基准测试中优于现有方法,尤其是在采样预算增加时,且在黑盒场景中表现出鲁棒性。

📝 摘要(中文)

大型语言模型(LLMs)通常为给定的提示生成多个候选答案,但选择最可靠的答案仍然具有挑战性,尤其是在正确性与表面上的多数一致性不符时。现有的方法,如自洽性,依赖于离散投票,而基于概率的方法通常无法捕捉候选答案之间的关系,或者倾向于低估高质量但不太频繁的答案,并且没有充分利用答案表征的几何结构。为了解决这些限制,我们引入了径向共识评分(RCS),这是一种简单、高效且无需训练的Best-of-N选择方法。RCS通过计算答案嵌入的加权Fréchet均值(语义中心)来建模语义共识,并根据候选答案到该中心的径向距离对其进行排序。重要的是,RCS提供了一个通用框架,支持多种加权方案,包括均匀、基于频率和基于概率的变体,从而能够灵活地整合一致性信号和模型置信度,同时完全适用于黑盒设置。在涵盖简答QA和长篇推理任务的七个基准测试以及五个开放权重模型上的大量实验表明,RCS变体始终优于强大的基线,并且随着采样预算的增加,收益变得更加明显。RCS还可以有效地替代多智能体辩论中的多数投票,并在黑盒场景中表现出强大的鲁棒性。总的来说,这些结果突出了几何共识作为一种可扩展且广泛适用的可靠答案选择原则,从多数投票扩展到LLM推理中更具表现力和鲁棒性的聚合。

🔬 方法详解

问题定义:现有的大语言模型在生成多个答案时,如何选择最可靠的答案是一个关键问题。传统的多数投票方法容易受到表面相似性的影响,而概率方法又难以捕捉答案之间的深层语义关系,导致最终选择的答案不一定是最佳的。此外,现有方法在处理高质量但低频的答案时存在不足,无法充分利用答案表征的几何结构信息。

核心思路:论文的核心思路是利用答案嵌入的几何结构,通过计算答案的语义中心(加权Fréchet均值)来衡量答案之间的共识程度。距离语义中心越近的答案,被认为与整体共识越一致,因此更可靠。这种方法不仅考虑了答案之间的关系,还能够有效地处理高质量但低频的答案。

技术框架:RCS方法主要包含以下几个阶段:1) 使用预训练的语言模型将候选答案编码为嵌入向量。2) 计算这些嵌入向量的加权Fréchet均值,得到语义中心。论文支持多种加权方式,包括均匀加权、基于频率的加权和基于概率的加权。3) 计算每个候选答案的嵌入向量到语义中心的径向距离。4) 根据径向距离对候选答案进行排序,选择距离最小的答案作为最终结果。

关键创新:RCS的关键创新在于它将答案选择问题转化为一个几何问题,通过计算语义中心来衡量答案之间的共识程度。与传统的离散投票方法相比,RCS能够更好地捕捉答案之间的语义关系,并且能够有效地处理高质量但低频的答案。此外,RCS提供了一个通用的框架,支持多种加权方案,可以灵活地整合不同的信息。

关键设计:RCS的关键设计包括:1) 使用预训练语言模型(如Sentence-BERT)生成高质量的答案嵌入。2) 选择合适的加权方案,例如,可以使用模型输出的概率作为权重,或者使用答案出现的频率作为权重。3) 使用Fréchet均值作为语义中心的计算方法,因为它能够有效地处理嵌入向量的几何结构。4) 使用径向距离作为衡量答案与语义中心一致性的指标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RCS在七个基准测试和五个开放权重模型上均优于现有方法。例如,在某些任务上,RCS的性能提升超过了5%。RCS在采样预算增加时表现出更明显的优势,表明其能够更好地利用更多的候选答案。此外,RCS在黑盒场景中表现出强大的鲁棒性,使其成为一种实用的答案选择方法。

🎯 应用场景

RCS方法可广泛应用于需要从多个候选答案中选择最佳答案的场景,例如问答系统、机器翻译、文本摘要等。该方法尤其适用于黑盒场景,无需对底层模型进行训练或修改。通过提高答案选择的可靠性,RCS可以提升LLM在各种应用中的性能和用户体验,并可应用于多智能体协作场景,提升决策质量。

📄 摘要(原文)

Large language models (LLMs) frequently generate multiple candidate responses for a given prompt, yet selecting the most reliable one remains challenging, especially when correctness diverges from surface-level majority agreement. Existing approaches, such as self-consistency, rely on discrete voting, while probability-based methods often fail to capture relationships among candidate answers or tend to underweight high-quality but less frequent responses, and do not fully leverage the geometric structure of answer representations. To address these limitations, we introduce Radial Consensus Score (RCS), a simple, efficient, and training-free method for best-of-N selection. RCS models semantic consensus by computing a weighted Fréchet mean (semantic center) of answer embeddings and ranking candidates by their radial distance to this center. Importantly, RCS provides a general framework that supports multiple weighting schemes, including uniform, frequency-based, and probability-based variants, enabling flexible integration of agreement signals and model confidence while remaining fully applicable in black-box settings. Extensive experiments across seven benchmarks covering short-form QA and long-form reasoning tasks, and five open-weight models, demonstrate that RCS variants consistently outperform strong baselines, with gains becoming more pronounced as the sampling budget increases. RCS also serves as an effective drop-in replacement for majority voting in multi-agent debate and exhibits strong robustness in black-box scenarios. Overall, these results highlight geometric consensus as a scalable and broadly applicable principle for reliable answer selection, extending beyond majority voting to more expressive and robust aggregation in LLM inference.