Questionable practices in machine learning

📄 arXiv: 2407.12220v2 📥 PDF

作者: Gavin Leech, Juan J. Vazquez, Niclas Kupper, Misha Yagudin, Laurence Aitchison

分类: cs.LG, cs.CL, cs.CY

发布日期: 2024-07-17 (更新: 2024-10-30)


💡 一句话要点

揭示机器学习中44种可疑实践,强调LLM评估并关注可复现性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器学习 可疑研究实践 大型语言模型 基准评估 可复现性 实验评估 研究伦理

📋 核心要点

  1. 现代机器学习模型评估面临挑战,追求SOTA结果的动机可能导致可疑的研究实践。
  2. 论文旨在识别并描述44种可能损害结果的可疑研究实践,尤其关注大型语言模型在公共基准上的评估。
  3. 论文还关注研究的可复现性问题,讨论了使研究难以复现、构建或审计的决策。

📝 摘要(中文)

评估现代机器学习模型非常困难。研究人员和公司在某些指标上报告最先进结果的强烈动机,往往导致可疑的研究实践(QRPs):即未达到彻底研究欺诈程度的糟糕实践。本文描述了44种此类实践,这些实践可能会破坏报告的结果,并在可能的情况下给出示例。我们的列表强调了大型语言模型(LLM)在公共基准上的评估。我们还讨论了“不可复现的研究实践”,即那些使得其他研究人员难以或不可能复现、构建或审计先前研究的决策。

🔬 方法详解

问题定义:当前机器学习模型,特别是大型语言模型(LLM),在公共基准上的评估面临严峻挑战。研究者和公司为了追求在特定指标上的最优结果,可能会采取一些不够严谨甚至有误导性的研究实践。这些实践虽然未达到学术欺诈的程度,但会严重影响实验结果的可靠性和可信度。现有方法缺乏对这些潜在问题的系统性识别和分析,导致研究结果难以被验证和复现。

核心思路:论文的核心在于系统性地识别和分类机器学习研究中存在的“可疑研究实践”(QRPs)。通过对大量文献和实践案例的分析,作者总结出44种可能影响实验结果可靠性的QRPs。论文强调了这些QRPs对LLM在公共基准上评估的影响,并讨论了如何提高研究的可复现性。

技术框架:论文并没有提出一个具体的算法或模型框架,而是一个对现有研究实践的分析和总结框架。该框架主要包含以下几个阶段:1) 文献调研和案例分析:收集和分析机器学习,特别是LLM领域的研究论文和实践案例。2) QRPs识别和分类:识别研究中存在的可能影响结果可靠性的实践,并将其归类到不同的类别中。3) 影响评估:分析这些QRPs对实验结果和结论的影响程度。4) 可复现性分析:评估研究的可复现性,并提出改进建议。

关键创新:论文最重要的创新在于系统性地识别和分类了机器学习研究中存在的多种QRPs。与以往的研究不同,该论文不仅关注了明显的学术不端行为,还深入探讨了那些虽然不构成欺诈,但仍然可能导致结果偏差的实践。此外,论文还强调了研究的可复现性问题,并提出了提高研究透明度和可复现性的建议。

关键设计:论文的关键设计在于对QRPs的分类和描述。作者将QRPs分为不同的类别,并为每种QRPs提供了具体的例子和解释。这种分类方法使得研究人员更容易识别和避免这些QRPs。此外,论文还讨论了如何评估QRPs对实验结果的影响,并提出了提高研究可复现性的建议,例如详细记录实验步骤、公开代码和数据等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过分析大量文献和实践案例,总结出44种可能影响实验结果可靠性的可疑研究实践。这些实践涵盖了数据处理、模型选择、评估指标、实验设计等多个方面。论文强调了这些QRPs对大型语言模型在公共基准上评估的影响,并讨论了如何提高研究的可复现性。该研究为机器学习研究人员提供了一个重要的参考,有助于提高研究的质量和可信度。

🎯 应用场景

该研究成果可应用于机器学习,特别是大型语言模型的研究和开发过程中,帮助研究人员避免可疑的研究实践,提高实验结果的可靠性和可信度。同时,该研究也有助于提高机器学习研究的透明度和可复现性,促进学术界的交流和合作。对于企业而言,可以帮助其更准确地评估模型的性能,避免因不严谨的评估方法而做出错误的决策。

📄 摘要(原文)

Evaluating modern ML models is hard. The strong incentive for researchers and companies to report a state-of-the-art result on some metric often leads to questionable research practices (QRPs): bad practices which fall short of outright research fraud. We describe 44 such practices which can undermine reported results, giving examples where possible. Our list emphasises the evaluation of large language models (LLMs) on public benchmarks. We also discuss "irreproducible research practices", i.e. decisions that make it difficult or impossible for other researchers to reproduce, build on or audit previous research.