Open-LLM-Leaderboard: From Multi-choice to Open-style Questions for LLMs Evaluation, Benchmark, and Arena

📄 arXiv: 2406.07545v1 📥 PDF

作者: Aidar Myrzakhan, Sondos Mahmoud Bsharat, Zhiqiang Shen

分类: cs.CL, cs.AI

发布日期: 2024-06-11

备注: Code and dataset are available at https://github.com/VILA-Lab/Open-LLM-Leaderboard

🔗 代码/项目: GITHUB


💡 一句话要点

提出Open-LLM-Leaderboard,通过开放式问题评估LLM,解决选择偏差和随机猜测问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型评估 开放式问题 选择偏差 随机猜测 LLM基准 Open-LLM-Leaderboard 自然语言处理 人工智能

📋 核心要点

  1. 多项选择题评估LLM存在选择偏差和随机猜测问题,影响评估的准确性。
  2. 论文提出从多项选择题转向开放式问题,以消除选择偏差和随机猜测,更准确评估LLM能力。
  3. 构建Open-LLM-Leaderboard基准,用于跟踪和评估各种LLM在开放式问题上的性能表现。

📝 摘要(中文)

多项选择题(MCQ)常用于评估大型语言模型(LLM)。通常,LLM被给予一个问题,并选择它认为最可能的答案,同时调整诸如长度之类的因素。然而,由于先验不平衡概率的固有偏差,LLM可能固有地偏爱某些答案选项ID,例如A/B/C/D,从而影响基于这些ID的答案预测。先前的研究已经引入了通过简单地排列少量测试样本上的选项并将其应用于新样本来减少这种“选择偏差”的方法。MCQ的另一个问题是“随机猜测”的彩票选择。LLM没有学习特定的知识,但选项被正确猜测。对于那些小规模LLM来说,这种情况尤其严重。为了解决这些问题,一种更彻底的方法是转向开放式问题,这可以从根本上消除选择偏差和随机猜测问题。然而,这种转变在(1)识别合适的开放式问题和(2)验证LLM开放式回答相对于人工标注的真实性的正确性方面带来了自身的一系列挑战。这项工作旨在解决这些重大难题,并通过完全开放式的问题建立一个新的LLM评估基准。因此,我们引入了Open-LLM-Leaderboard来跟踪各种LLM的性能,并反映它们的真实能力,例如GPT-4o/4/3.5、Claude 3、Gemini等。我们的代码和数据集可在https://github.com/VILA-Lab/Open-LLM-Leaderboard上找到。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)评估中,使用多项选择题(MCQ)时存在的选择偏差和随机猜测问题。现有方法,如简单地排列选项,无法彻底消除这些偏差,尤其对于小规模LLM,随机猜测会严重影响评估结果。因此,需要一种更可靠的评估方法来反映LLM的真实能力。

核心思路:论文的核心思路是将评估方式从多项选择题转变为开放式问题。通过要求LLM直接生成答案,而非从预设选项中选择,可以有效消除选择偏差,避免LLM仅仅依赖选项ID的先验概率进行猜测。这种方式能够更真实地反映LLM对知识的理解和生成能力。

技术框架:Open-LLM-Leaderboard的整体框架包含以下几个关键步骤:1) 收集和整理适合开放式问题评估的数据集。2) 设计评估指标,用于衡量LLM生成的答案与人工标注的ground truth之间的相似度和准确性。3) 建立一个在线排行榜,跟踪和比较不同LLM在开放式问题上的性能表现。该框架旨在提供一个全面、公平和可靠的LLM评估平台。

关键创新:论文最重要的技术创新在于提出了使用开放式问题进行LLM评估的思路,并构建了相应的基准Open-LLM-Leaderboard。与传统的MCQ评估相比,开放式问题评估能够更有效地消除选择偏差和随机猜测,从而更准确地反映LLM的真实能力。此外,该基准的建立也为LLM研究人员提供了一个统一的评估平台,方便进行模型比较和性能分析。

关键设计:论文的关键设计包括:1) 数据集的选择和构建,需要保证数据集的质量和多样性,覆盖不同的知识领域和难度级别。2) 评估指标的设计,需要选择合适的指标来衡量LLM生成答案的准确性和流畅性,例如BLEU、ROUGE、METEOR等。3) 排行榜的呈现方式,需要清晰地展示不同LLM的性能数据,并提供详细的评估报告,方便用户进行分析和比较。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建了Open-LLM-Leaderboard基准,并评估了GPT-4o/4/3.5、Claude 3、Gemini等多个LLM在开放式问题上的性能。该基准的建立为LLM研究提供了一个统一的评估平台,能够更准确地反映LLM的真实能力,并为未来的模型改进提供指导。

🎯 应用场景

该研究成果可广泛应用于LLM的开发、评估和选择。Open-LLM-Leaderboard为研究人员提供了一个客观的评估平台,帮助他们更好地了解LLM的优缺点,并指导模型改进。同时,该基准也可用于指导企业和个人选择最适合自身需求的LLM,从而提高工作效率和决策质量。未来,该研究有望推动LLM技术的进一步发展和应用。

📄 摘要(原文)

Multiple-choice questions (MCQ) are frequently used to assess large language models (LLMs). Typically, an LLM is given a question and selects the answer deemed most probable after adjustments for factors like length. Unfortunately, LLMs may inherently favor certain answer choice IDs, such as A/B/C/D, due to inherent biases of priori unbalanced probabilities, influencing the prediction of answers based on these IDs. Previous research has introduced methods to reduce this ''selection bias'' by simply permutating options on a few test samples and applying to new ones. Another problem of MCQ is the lottery ticket choice by ''random guessing''. The LLM does not learn particular knowledge, but the option is guessed correctly. This situation is especially serious for those small-scale LLMs. To address them, a more thorough approach involves shifting from MCQ to open-style questions, which can fundamentally eliminate selection bias and random guessing issues. However, transitioning causes its own set of challenges in (1) identifying suitable open-style questions and (2) validating the correctness of LLM open-style responses against human-annotated ground-truths. This work aims to tackle these significant difficulties, and establish a new LLM evaluation benchmark through entirely open-style questions. Consequently, we introduce the Open-LLM-Leaderboard to track various LLMs' performance and reflect true capability of them, such as GPT-4o/4/3.5, Claude 3, Gemini, etc. Our code and dataset are available at https://github.com/VILA-Lab/Open-LLM-Leaderboard.