Multi-Agent Verification: Scaling Test-Time Compute with Multiple Verifiers
作者: Shalev Lifshitz, Sheila A. McIlraith, Yilun Du
分类: cs.AI
发布日期: 2025-02-27
💡 一句话要点
提出多Agent验证(MAV),通过扩展验证器数量提升LLM测试时性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多Agent验证 大语言模型 测试时推理 方面验证器 BoN-MAV
📋 核心要点
- 现有大语言模型(LLM)测试时提升方法受限于计算资源,验证效果提升有限。
- 提出多Agent验证(MAV),通过增加验证器数量,在测试时利用更多计算资源提升性能。
- 实验表明,BoN-MAV优于自洽性和奖励模型验证,并展示了弱到强泛化和自我改进能力。
📝 摘要(中文)
本文提出了一种新的测试时计算扩展维度:增加验证器的数量。我们引入了多Agent验证(MAV)作为一种测试时计算范式,它结合了多个验证器来提高性能。我们建议使用方面验证器(AVs),即现成的LLM,通过提示来验证输出的不同方面,作为MAV系统中验证器的一种可能选择。AVs是MAV的便捷构建块,因为它们可以轻松组合而无需额外的训练。此外,我们还介绍了一种简单的多Agent验证算法BoN-MAV,它将best-of-n采样与多个验证器相结合。BoN-MAV表现出比自洽性和奖励模型验证更强的扩展模式。我们展示了弱到强的泛化,即结合弱验证器甚至可以改进更强的LLM,以及自我改进,即使用相同的基本模型来生成和验证输出。我们的结果表明,扩展验证器的数量是提高语言模型测试时性能的一个有希望的新维度。
🔬 方法详解
问题定义:现有的大语言模型在测试时提升性能的方法,例如自洽性(Self-Consistency)和奖励模型验证,通常受限于计算资源的瓶颈。如何更有效地利用测试时的计算资源,从而进一步提升LLM的性能是一个关键问题。这些方法的痛点在于,它们通常依赖于单一的验证器或固定的验证策略,难以充分挖掘LLM的潜力。
核心思路:本文的核心思路是通过增加验证器的数量,构建一个多Agent验证(MAV)系统,从而更全面、更深入地评估LLM的输出。通过让多个验证器从不同的角度(Aspect)对候选输出进行验证,可以有效地提高验证的准确性和可靠性。这种方法的核心在于利用了集体的智慧,从而弥补了单个验证器的局限性。
技术框架:MAV系统的整体框架包括以下几个主要模块:1) 候选生成模块:使用LLM生成多个候选输出;2) 方面验证器(AVs)模块:使用多个预训练的LLM,通过不同的提示(Prompt)来验证候选输出的不同方面;3) 聚合模块:将多个AVs的验证结果进行聚合,从而选择最优的输出。具体而言,论文提出了BoN-MAV算法,该算法结合了best-of-n采样和多个验证器,通过对n个候选输出进行采样,并使用多个AVs进行验证,最终选择得分最高的输出。
关键创新:本文最重要的技术创新点在于提出了多Agent验证(MAV)的概念,并将其作为一个新的测试时计算扩展维度。与传统的单验证器方法相比,MAV能够更全面、更深入地评估LLM的输出,从而提高性能。此外,使用方面验证器(AVs)也是一个重要的创新,AVs可以方便地组合,而无需额外的训练。
关键设计:在AVs的设计上,论文使用了预训练的LLM,并通过不同的提示(Prompt)来引导它们验证候选输出的不同方面。例如,可以设计一个AV来验证输出的逻辑一致性,另一个AV来验证输出的事实准确性。在BoN-MAV算法中,关键的参数包括采样数量n和AVs的数量。论文通过实验验证了增加n和AVs的数量都可以提高性能。此外,如何有效地聚合多个AVs的验证结果也是一个关键的设计问题。论文采用了一种简单的加权平均方法,但也可以考虑使用更复杂的聚合方法,例如学习一个聚合模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,BoN-MAV算法在多个任务上都优于自洽性和奖励模型验证。特别地,BoN-MAV展示了弱到强的泛化能力,即结合弱验证器可以改进更强的LLM。例如,使用多个较小的LLM作为AVs,可以有效地提高更大、更强的LLM的性能。此外,BoN-MAV还展示了自我改进能力,即使用相同的基本模型来生成和验证输出,也可以获得显著的性能提升。
🎯 应用场景
该研究成果可广泛应用于各种需要高质量LLM输出的场景,例如智能客服、内容生成、代码生成、机器翻译等。通过利用多Agent验证,可以显著提高LLM的可靠性和准确性,从而提升用户体验和应用价值。未来,该方法有望与更强大的LLM结合,进一步推动人工智能技术的发展。
📄 摘要(原文)
By utilizing more computational resources at test-time, large language models (LLMs) can improve without additional training. One common strategy uses verifiers to evaluate candidate outputs. In this work, we propose a novel scaling dimension for test-time compute: scaling the number of verifiers. We introduce Multi-Agent Verification (MAV) as a test-time compute paradigm that combines multiple verifiers to improve performance. We propose using Aspect Verifiers (AVs), off-the-shelf LLMs prompted to verify different aspects of outputs, as one possible choice for the verifiers in a MAV system. AVs are a convenient building block for MAV since they can be easily combined without additional training. Moreover, we introduce BoN-MAV, a simple multi-agent verification algorithm that combines best-of-n sampling with multiple verifiers. BoN-MAV demonstrates stronger scaling patterns than self-consistency and reward model verification, and we demonstrate both weak-to-strong generalization, where combining weak verifiers improves even stronger LLMs, and self-improvement, where the same base model is used to both generate and verify outputs. Our results establish scaling the number of verifiers as a promising new dimension for improving language model performance at test-time.