WiCkeD: A Simple Method to Make Multiple Choice Benchmarks More Challenging
作者: Ahmed Elhady, Eneko Agirre, Mikel Artetxe
分类: cs.CL
发布日期: 2025-02-25
🔗 代码/项目: GITHUB
💡 一句话要点
WiCkeD:通过引入“以上皆非”选项,提升多项选择题基准测试的难度
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多项选择题 基准测试 大型语言模型 推理能力 评估方法
📋 核心要点
- 现有选择题基准测试的难度不足,可能无法充分评估大型语言模型(LLM)的推理能力。
- WiCkeD方法通过引入“以上皆非”选项,迫使模型进行更深入的理解和推理,从而增加测试难度。
- 实验表明,WiCkeD能显著降低LLM在多个基准测试上的性能,并揭示模型对推理需求的敏感性差异。
📝 摘要(中文)
本文介绍了一种名为WiCkeD的简单方法,用于增加现有选择题基准测试的复杂性。该方法通过随机将一个选项替换为“以上皆非”来实现,这是一种常用于教育测试中的技巧。我们证明了WiCkeD可以自动应用于任何现有基准测试,从而使其更具挑战性。我们将WiCkeD应用于6个流行的基准测试,并使用它来评估18个开源LLM。结果显示,相对于原始数据集版本,模型的性能平均下降了12.1个百分点。在使用思维链(chain-of-thought)方法在3个MMLU数据集上进行测试时,WiCkeD变体的性能下降与直接使用LLM观察到的性能下降相似,表明WiCkeD对于具有增强推理能力的模型也具有挑战性。WiCkeD还揭示了一些模型对额外推理的需求更为敏感,从而提供了相对于原始基准测试的额外信息。我们在https://github.com/ahmedselhady/wicked-benchmarks上发布了我们的代码和数据。
🔬 方法详解
问题定义:论文旨在解决现有选择题基准测试难度不足的问题。现有方法的痛点在于,即使模型对问题理解不透彻,也可能通过排除法或模式匹配等方式获得较高分数,无法真实反映模型的推理能力。
核心思路:论文的核心解决思路是通过引入“以上皆非”选项,迫使模型必须真正理解问题和所有选项,才能做出正确选择。这种设计增加了模型推理的复杂性,避免了模型通过简单的模式识别或排除法获得高分。
技术框架:WiCkeD方法的整体流程非常简单:1) 选择一个现有的多项选择题基准测试数据集;2) 对于数据集中的每个问题,随机选择一个错误答案,并将其替换为“以上皆非”;3) 使用修改后的数据集评估LLM的性能。
关键创新:WiCkeD方法的关键创新在于其简单性和有效性。它不需要复杂的算法或模型训练,只需对现有数据集进行简单的修改即可显著提高测试难度。这种方法可以广泛应用于各种选择题基准测试,并为评估LLM的推理能力提供更可靠的指标。
关键设计:WiCkeD方法的关键设计在于“以上皆非”选项的引入。该选项的引入使得模型无法通过简单的排除法或模式匹配来作答,必须真正理解问题和所有选项之间的关系。具体实现时,随机选择被替换的错误答案,以避免引入偏差。
🖼️ 关键图片
📊 实验亮点
实验结果表明,将WiCkeD应用于6个流行的基准测试后,18个开源LLM的平均性能下降了12.1个百分点。在使用思维链方法在3个MMLU数据集上进行测试时,WiCkeD变体的性能下降与直接使用LLM观察到的性能下降相似,表明WiCkeD对于具有增强推理能力的模型也具有挑战性。
🎯 应用场景
WiCkeD方法可广泛应用于评估和比较不同LLM的推理能力。它可以帮助研究人员和开发者更准确地了解模型的优势和劣势,并指导模型的改进和优化。此外,该方法还可以用于教育领域,设计更具挑战性的测试题,以评估学生的知识掌握程度。
📄 摘要(原文)
We introduce WiCkeD, a simple method to increase the complexity of existing multiple-choice benchmarks by randomly replacing a choice with "None of the above", a method often used in educational tests. We show that WiCkeD can be automatically applied to any existing benchmark, making it more challenging. We apply WiCkeD to 6 popular benchmarks and use it to evaluate 18 open-weight LLMs. The performance of the models drops 12.1 points on average with respect to the original versions of the datasets. When using chain-of-thought on 3 MMLU datasets, the performance drop for the WiCkeD variant is similar to the one observed when using the LLMs directly, showing that WiCkeD is also challenging for models with enhanced reasoning abilities. WiCkeD also uncovers that some models are more sensitive to the extra reasoning required, providing additional information with respect to the original benchmarks. We relase our code and data at https://github.com/ahmedselhady/wicked-benchmarks.