Language Model Council: Democratically Benchmarking Foundation Models on Highly Subjective Tasks

📄 arXiv: 2406.08598v4 📥 PDF

作者: Justin Zhao, Flor Miriam Plaza-del-Arco, Benjamin Genchel, Amanda Cercas Curry

分类: cs.CL, cs.AI

发布日期: 2024-06-12 (更新: 2025-03-19)


💡 一句话要点

提出语言模型委员会(LMC),民主化地评估大模型在主观任务上的表现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型评估 主观任务 语言模型委员会 民主评估 情商评估

📋 核心要点

  1. 现有LLM评估方法依赖单一模型评判,易受模型偏差影响,尤其在情商等主观任务上。
  2. 提出LMC,由多个LLM协作完成测试生成、响应和评估,以民主方式进行排名。
  3. 实验表明,LMC的排名更具区分度和鲁棒性,且与人类评估的一致性高于单一LLM评判。

📝 摘要(中文)

随着大型语言模型(LLM)的不断发展,评估它们仍然是一个持续的挑战。最近的许多评估使用LLM作为评判者来评估其他LLM的输出,通常依赖于像GPT-4o这样的大型模型。然而,使用单个LLM评判者容易产生模型内部偏差,并且许多任务——例如那些与情商、创意写作和说服力相关的任务——对于单个模型来说可能过于主观而无法公平地评判。我们引入了语言模型委员会(LMC),其中一组LLM协作创建测试,响应测试,并评估彼此的响应,以民主的方式产生排名。与之前专注于通过使用小型模型面板来降低成本或偏差的方法不同,我们的工作研究了一个完全包容的LLM评估系统的优势和细微之处。在一个关于情商的详细案例研究中,我们部署了一个由20个最新LLM组成的委员会,以对彼此在人际冲突的开放式响应进行排名。我们的结果表明,LMC产生的排名更具可分离性和鲁棒性,并且通过用户研究,我们表明它们比任何单个LLM评判者更符合人类评估。然而,使用所有LLM进行评判可能成本高昂,因此我们使用蒙特卡洛模拟和手工策划的子委员会来研究假设的委员会组成,并讨论增量LLM评判者的价值。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)评估方法,特别是针对情商、创意写作等高度主观任务的评估,通常依赖于单个LLM(如GPT-4o)作为评判者。这种方法的主要痛点在于单个LLM可能存在固有的模型偏差,导致评估结果不公平或不准确。此外,主观任务的特性使得单一模型难以全面捕捉人类的细微情感和创造力。

核心思路:论文的核心思路是引入“语言模型委员会”(LMC)的概念,通过多个LLM共同参与评估过程,以民主的方式产生最终排名。LMC的核心在于利用群体智慧,减少单一模型偏差的影响,从而提高评估的公平性和准确性。这种设计借鉴了人类社会中委员会决策的模式,旨在模拟更全面、更客观的评估过程。

技术框架:LMC的整体框架包含以下几个主要阶段:1) 测试生成:委员会中的LLM共同创建测试用例,这些测试用例旨在评估LLM在特定主观任务上的表现。2) 响应生成:委员会中的所有LLM对生成的测试用例进行响应,产生各自的输出。3) 互评:每个LLM都作为评判者,评估其他LLM对测试用例的响应。4) 排名生成:基于所有LLM的互评结果,通过民主投票或加权平均等方式,生成最终的排名。

关键创新:LMC最重要的技术创新点在于其完全包容的LLM评估系统。与以往使用小型模型面板降低成本或偏差的方法不同,LMC充分利用了多个大型LLM的优势,以更全面、更鲁棒的方式进行评估。这种方法能够更好地捕捉主观任务的复杂性,并减少单一模型偏差的影响。

关键设计:LMC的关键设计包括:1) 委员会成员选择:选择具有不同架构、训练数据和能力的LLM,以增加评估的多样性。2) 测试用例设计:设计能够有效评估特定主观任务的测试用例,例如,针对情商的测试用例可能包含人际冲突场景。3) 评估指标:选择合适的评估指标,例如,一致性、可分离性和鲁棒性,以衡量LMC的性能。4) 排名算法:采用民主投票或加权平均等算法,将所有LLM的互评结果整合为最终排名。论文还使用了蒙特卡洛模拟和手工策划的子委员会来研究不同的委员会组成。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LMC在情商评估任务中表现出色,产生的排名比单一LLM评判者更具可分离性和鲁棒性。用户研究也证实,LMC的排名与人类评估的一致性更高。此外,论文还通过蒙特卡洛模拟和手工策划子委员会,探讨了不同委员会组成对评估结果的影响。

🎯 应用场景

LMC可应用于各种需要主观评估的场景,如情感计算、创意内容生成、人机交互等。它能更准确地评估LLM在这些领域的表现,促进模型优化和应用落地。此外,LMC的民主评估机制为构建更公平、透明的AI评估体系提供了新思路,具有重要的社会价值。

📄 摘要(原文)

As Large Language Models (LLMs) continue to evolve, evaluating them remains a persistent challenge. Many recent evaluations use LLMs as judges to score outputs from other LLMs, often relying on a single large model like GPT-4o. However, using a single LLM judge is prone to intra-model bias, and many tasks - such as those related to emotional intelligence, creative writing, and persuasiveness - may be too subjective for a single model to judge fairly. We introduce the Language Model Council (LMC), where a group of LLMs collaborate to create tests, respond to them, and evaluate each other's responses to produce a ranking in a democratic fashion. Unlike previous approaches that focus on reducing cost or bias by using a panel of smaller models, our work examines the benefits and nuances of a fully inclusive LLM evaluation system. In a detailed case study on emotional intelligence, we deploy a council of 20 recent LLMs to rank each other on open-ended responses to interpersonal conflicts. Our results show that the LMC produces rankings that are more separable and more robust, and through a user study, we show that they are more consistent with human evaluations than any individual LLM judge. Using all LLMs for judging can be costly, however, so we use Monte Carlo simulations and hand-curated sub-councils to study hypothetical council compositions and discuss the value of the incremental LLM judge.