Scoring, Reasoning, and Selecting the Best! Ensembling Large Language Models via a Peer-Review Process
作者: Zhijun Chen, Zeyu Ji, Qianren Mao, Junhang Cheng, Bangjie Qin, Hao Wu, Zhuoran Li, Jingzheng Li, Kai Sun, Zizhe Wang, Yikun Ban, Zhu Sun, Xiangyang Ji, Hailong Sun
分类: cs.CL, cs.AI
发布日期: 2025-12-29
💡 一句话要点
提出LLM-PeerReview,通过同行评审集成大语言模型,提升生成质量。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型集成 同行评审 无监督学习 模型评估 真值推理
📋 核心要点
- 现有大语言模型集成方法缺乏透明机制,难以解释和优化。
- LLM-PeerReview模拟同行评审过程,利用多个LLM进行评分、推理和选择,实现无监督集成。
- 实验表明,LLM-PeerReview在多个数据集上显著优于现有方法,提升效果明显。
📝 摘要(中文)
本文提出了一种名为LLM-PeerReview的无监督大语言模型集成方法,旨在从多个大语言模型针对同一查询生成的候选答案中,选择最理想的答案。该方法利用多个模型各自的优势,集思广益。LLM-PeerReview构建于一个新颖的、受同行评审启发的框架之上,该框架提供了一个清晰且可解释的机制,同时保持完全无监督,从而具有灵活的适应性和泛化能力。具体而言,它包含三个阶段:评分阶段,利用新兴的“LLM-as-a-Judge”技术,使用多个现有的大语言模型评估每个答案;推理阶段,应用基于图模型的真值推理算法或简单的平均策略,聚合多个评分,为每个答案生成最终得分;选择阶段,选择得分最高的答案作为最佳集成输出。LLM-PeerReview概念简单,效果显著。该方法的两个变体在四个数据集上取得了优异的结果,分别超越了最近的先进模型Smoothie-Global 6.9%和7.3%。
🔬 方法详解
问题定义:现有的大语言模型集成方法通常缺乏可解释性,难以理解模型做出选择的原因。此外,许多方法需要人工标注数据进行训练,成本较高,泛化能力受限。因此,如何设计一种无监督、可解释的大语言模型集成方法是一个挑战。
核心思路:LLM-PeerReview的核心思路是借鉴学术界的同行评审机制。每个大语言模型生成的答案都相当于一篇论文,而其他大语言模型则扮演评审专家的角色,对这些答案进行评分。通过综合多个评审专家的意见,最终选择得分最高的答案,从而实现高质量的集成。这种方法模拟了人类的决策过程,具有较好的可解释性。
技术框架:LLM-PeerReview包含三个主要阶段:1) 评分阶段:利用多个大语言模型作为评审员,对每个候选答案进行评分。评分标准可以根据具体任务进行调整。2) 推理阶段:将多个评审员的评分进行聚合,得到每个候选答案的最终得分。可以使用基于图模型的真值推理算法,也可以使用简单的平均策略。3) 选择阶段:选择最终得分最高的候选答案作为集成模型的输出。
关键创新:LLM-PeerReview的关键创新在于其同行评审的框架。它将大语言模型的集成问题转化为一个评分和选择问题,并利用多个大语言模型进行无监督的评分。这种方法不仅提高了集成模型的性能,还增强了模型的可解释性。与现有方法相比,LLM-PeerReview不需要人工标注数据,具有更好的泛化能力。
关键设计:在评分阶段,可以使用不同的提示工程技术来引导大语言模型进行评分。例如,可以要求模型给出评分的理由,或者提供一些参考答案。在推理阶段,可以使用不同的真值推理算法,例如Dawid-Skene算法或Borda Count算法。关键参数包括评审员的数量、评分标准、真值推理算法等。这些参数可以根据具体任务进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM-PeerReview在四个数据集上取得了显著的性能提升。例如,在某个数据集上,LLM-PeerReview的两个变体分别超越了先进模型Smoothie-Global 6.9%和7.3%。这些结果表明,LLM-PeerReview是一种有效的无监督大语言模型集成方法。
🎯 应用场景
LLM-PeerReview可应用于各种需要高质量文本生成的场景,例如问答系统、文本摘要、机器翻译等。通过集成多个大语言模型的优势,可以提高生成文本的准确性、流畅性和创造性。该方法还可用于评估不同大语言模型的性能,为模型选择和优化提供参考。
📄 摘要(原文)
We propose LLM-PeerReview, an unsupervised LLM Ensemble method that selects the most ideal response from multiple LLM-generated candidates for each query, harnessing the collective wisdom of multiple models with diverse strengths. LLM-PeerReview is built on a novel, peer-review-inspired framework that offers a clear and interpretable mechanism, while remaining fully unsupervised for flexible adaptability and generalization. Specifically, it operates in three stages: For scoring, we use the emerging LLM-as-a-Judge technique to evaluate each response by reusing multiple LLMs at hand; For reasoning, we can apply a principled graphical model-based truth inference algorithm or a straightforward averaging strategy to aggregate multiple scores to produce a final score for each response; Finally, the highest-scoring response is selected as the best ensemble output. LLM-PeerReview is conceptually simple and empirically powerful. The two variants of the proposed approach obtain strong results across four datasets, including outperforming the recent advanced model Smoothie-Global by 6.9% and 7.3% points, respectively.