Scoring, Reasoning, and Selecting the Best! Ensembling Large Language Models via a Peer-Review Process

作者: Zhijun Chen, Zeyu Ji, Qianren Mao, Junhang Cheng, Bangjie Qin, Hao Wu, Zhuoran Li, Jingzheng Li, Kai Sun, Zizhe Wang, Yikun Ban, Zhu Sun, Xiangyang Ji, Hailong Sun

分类: cs.CL, cs.AI

发布日期: 2025-12-29

💡 一句话要点

提出LLM-PeerReview，通过同行评审集成大语言模型，提升生成质量。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型集成 同行评审 无监督学习 模型评估 真值推理

📋 核心要点

现有大语言模型集成方法缺乏透明机制，难以解释和优化。
LLM-PeerReview模拟同行评审过程，利用多个LLM进行评分、推理和选择，实现无监督集成。
实验表明，LLM-PeerReview在多个数据集上显著优于现有方法，提升效果明显。

📝 摘要（中文）

本文提出了一种名为LLM-PeerReview的无监督大语言模型集成方法，旨在从多个大语言模型针对同一查询生成的候选答案中，选择最理想的答案。该方法利用多个模型各自的优势，集思广益。LLM-PeerReview构建于一个新颖的、受同行评审启发的框架之上，该框架提供了一个清晰且可解释的机制，同时保持完全无监督，从而具有灵活的适应性和泛化能力。具体而言，它包含三个阶段：评分阶段，利用新兴的“LLM-as-a-Judge”技术，使用多个现有的大语言模型评估每个答案；推理阶段，应用基于图模型的真值推理算法或简单的平均策略，聚合多个评分，为每个答案生成最终得分；选择阶段，选择得分最高的答案作为最佳集成输出。LLM-PeerReview概念简单，效果显著。该方法的两个变体在四个数据集上取得了优异的结果，分别超越了最近的先进模型Smoothie-Global 6.9%和7.3%。

🔬 方法详解

问题定义：现有的大语言模型集成方法通常缺乏可解释性，难以理解模型做出选择的原因。此外，许多方法需要人工标注数据进行训练，成本较高，泛化能力受限。因此，如何设计一种无监督、可解释的大语言模型集成方法是一个挑战。

核心思路：LLM-PeerReview的核心思路是借鉴学术界的同行评审机制。每个大语言模型生成的答案都相当于一篇论文，而其他大语言模型则扮演评审专家的角色，对这些答案进行评分。通过综合多个评审专家的意见，最终选择得分最高的答案，从而实现高质量的集成。这种方法模拟了人类的决策过程，具有较好的可解释性。

技术框架：LLM-PeerReview包含三个主要阶段：1) 评分阶段：利用多个大语言模型作为评审员，对每个候选答案进行评分。评分标准可以根据具体任务进行调整。2) 推理阶段：将多个评审员的评分进行聚合，得到每个候选答案的最终得分。可以使用基于图模型的真值推理算法，也可以使用简单的平均策略。3) 选择阶段：选择最终得分最高的候选答案作为集成模型的输出。

关键创新：LLM-PeerReview的关键创新在于其同行评审的框架。它将大语言模型的集成问题转化为一个评分和选择问题，并利用多个大语言模型进行无监督的评分。这种方法不仅提高了集成模型的性能，还增强了模型的可解释性。与现有方法相比，LLM-PeerReview不需要人工标注数据，具有更好的泛化能力。

关键设计：在评分阶段，可以使用不同的提示工程技术来引导大语言模型进行评分。例如，可以要求模型给出评分的理由，或者提供一些参考答案。在推理阶段，可以使用不同的真值推理算法，例如Dawid-Skene算法或Borda Count算法。关键参数包括评审员的数量、评分标准、真值推理算法等。这些参数可以根据具体任务进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLM-PeerReview在四个数据集上取得了显著的性能提升。例如，在某个数据集上，LLM-PeerReview的两个变体分别超越了先进模型Smoothie-Global 6.9%和7.3%。这些结果表明，LLM-PeerReview是一种有效的无监督大语言模型集成方法。

🎯 应用场景

LLM-PeerReview可应用于各种需要高质量文本生成的场景，例如问答系统、文本摘要、机器翻译等。通过集成多个大语言模型的优势，可以提高生成文本的准确性、流畅性和创造性。该方法还可用于评估不同大语言模型的性能，为模型选择和优化提供参考。

📄 摘要（原文）

We propose LLM-PeerReview, an unsupervised LLM Ensemble method that selects the most ideal response from multiple LLM-generated candidates for each query, harnessing the collective wisdom of multiple models with diverse strengths. LLM-PeerReview is built on a novel, peer-review-inspired framework that offers a clear and interpretable mechanism, while remaining fully unsupervised for flexible adaptability and generalization. Specifically, it operates in three stages: For scoring, we use the emerging LLM-as-a-Judge technique to evaluate each response by reusing multiple LLMs at hand; For reasoning, we can apply a principled graphical model-based truth inference algorithm or a straightforward averaging strategy to aggregate multiple scores to produce a final score for each response; Finally, the highest-scoring response is selected as the best ensemble output. LLM-PeerReview is conceptually simple and empirically powerful. The two variants of the proposed approach obtain strong results across four datasets, including outperforming the recent advanced model Smoothie-Global by 6.9% and 7.3% points, respectively.

Scoring, Reasoning, and Selecting the Best! Ensembling Large Language Models via a Peer-Review Process

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理