Towards Acyclic Preference Evaluation of Language Models via Multiple Evaluators
作者: Zhengyu Hu, Jieyu Zhang, Zhihan Xiong, Alexander Ratner, Kaize Ding, Ranjay Krishna
分类: cs.CL, cs.AI, cs.LG
发布日期: 2024-10-14 (更新: 2026-01-01)
💡 一句话要点
提出PGED框架,通过多评估器集成解决语言模型偏好评估中的循环矛盾问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言模型评估 偏好学习 多评估器集成 图去噪 循环偏好
📋 核心要点
- 现有语言模型偏好评估依赖单一模型,易产生循环矛盾,导致评估结果不可靠。
- PGED框架利用多个小型语言模型构建偏好图,通过集成和去噪实现非矛盾评估。
- 实验表明,PGED能有效提升模型排序、响应选择和数据选择效果,甚至超越大型评估模型。
📝 摘要(中文)
大型语言模型(LLMs)取得了显著成功,但评估其输出质量,特别是关于偏好方面,仍然是一个关键挑战。现有工作通常利用一个强大的LLM作为裁判,成对比较LLMs的响应,但这种单评估器方法容易出现循环偏好,即输出A优于B,B优于C,但C优于A,导致矛盾的评估结果。为了解决这个问题,我们引入了PGED(Preference Graph Ensemble and Denoising),一种新颖的方法,它利用多个基于模型的评估器来构建偏好图,然后集成和去噪这些图,以获得非循环、非矛盾的评估结果。我们为我们的框架提供了理论保证,证明了其在恢复真实偏好结构方面的有效性。在十个基准上的大量实验表明,PGED在三个应用中具有优越性:1)用于评估的模型排序,2)用于测试时扩展的响应选择,以及3)用于模型微调的数据选择。值得注意的是,PGED结合了小型LLM评估器(例如,Llama3-8B,Mistral-7B,Qwen2-7B)来超越强大的评估器(例如,Qwen2-72B),展示了其在提高评估可靠性和改善模型性能方面的有效性。
🔬 方法详解
问题定义:现有的大型语言模型评估方法,特别是基于成对比较的偏好评估,通常依赖于单个强大的LLM作为评估者。这种方法的痛点在于,单个评估者可能会引入循环偏好,即A>B, B>C, C>A,导致评估结果出现矛盾,无法准确反映模型之间的真实优劣关系。
核心思路:PGED的核心思路是利用多个不同的LLM作为评估者,每个评估者都对模型输出进行偏好判断,然后将这些判断结果构建成多个偏好图。通过集成这些偏好图,并进行去噪处理,可以消除单个评估者引入的偏差和循环偏好,从而得到一个更准确、更可靠的偏好评估结果。这种方法的设计基于一个假设:不同的评估者可能具有不同的偏好视角,通过集成这些视角可以减少评估的片面性。
技术框架:PGED框架主要包含以下几个阶段:1) 多评估器偏好收集:使用多个不同的LLM作为评估器,对模型输出的成对比较结果进行偏好判断。2) 偏好图构建:根据每个评估器的偏好判断结果,构建一个偏好图,图中节点代表模型输出,边代表评估器认为的偏好关系。3) 偏好图集成:将多个偏好图进行集成,可以使用加权平均或者其他集成方法,得到一个综合的偏好图。4) 偏好图去噪:对综合的偏好图进行去噪处理,消除循环偏好和不一致性,可以使用图算法或者其他优化方法。
关键创新:PGED最重要的技术创新点在于其多评估器集成和去噪的思想。与传统的单评估器方法相比,PGED能够利用多个评估器的优势,减少评估偏差,提高评估的可靠性和准确性。此外,PGED的去噪机制能够有效消除循环偏好,保证评估结果的一致性。
关键设计:PGED的关键设计包括:1) 评估器选择:选择具有不同架构、训练数据和能力的LLM作为评估器,以保证评估的多样性。2) 偏好图集成方法:可以使用不同的集成方法,例如加权平均、投票等,选择合适的集成方法可以提高评估的准确性。3) 去噪算法:可以使用不同的图算法或者优化方法进行去噪,例如PageRank、随机游走等,选择合适的去噪算法可以有效消除循环偏好。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PGED框架在模型排序、响应选择和数据选择三个应用中均优于传统的单评估器方法。值得注意的是,PGED结合多个小型LLM评估器(如Llama3-8B, Mistral-7B, Qwen2-7B)的性能甚至超越了单个强大的LLM评估器(如Qwen2-72B),证明了其在提高评估效率和可靠性方面的潜力。
🎯 应用场景
PGED框架可广泛应用于大型语言模型的评估和选择,例如在模型排行榜构建、模型微调数据选择、以及测试时响应选择等场景。通过提供更可靠的偏好评估,PGED能够帮助研究人员和开发者更好地理解和改进语言模型,加速人工智能技术的进步。
📄 摘要(原文)
Despite the remarkable success of Large Language Models (LLMs), evaluating their outputs' quality regarding preference remains a critical challenge. While existing works usually leverage a strong LLM as the judge for comparing LLMs' response pairwisely, such a single-evaluator approach is vulnerable to cyclic preference, i.e., output A is better than B, B than C, but C is better than A, causing contradictory evaluation results. To address this, we introduce PGED (Preference Graph Ensemble and Denoising), a novel approach that leverages multiple model-based evaluators to construct preference graphs, and then ensembles and denoises these graphs for acyclic, non-contradictory evaluation results. We provide theoretical guarantees for our framework, demonstrating its efficacy in recovering the ground truth preference structure. Extensive experiments on ten benchmarks demonstrate PGED's superiority in three applications: 1) model ranking for evaluation, 2) response selection for test-time scaling, and 3) data selection for model fine-tuning. Notably, PGED combines small LLM evaluators (e.g., Llama3-8B, Mistral-7B, Qwen2-7B) to outperform strong ones (e.g., Qwen2-72B), showcasing its effectiveness in enhancing evaluation reliability and improving model performance.