ML2B: Multi-Lingual ML Benchmark For AutoML

📄 arXiv: 2509.22768v2 📥 PDF

作者: Ekaterina Trofimova, Zosia Shamina, Maria Selifanova, Artem Zaitsev, Remi Savchuk, Maxim Minets, Daria Ozerova, Emil Sataev, Denis Zuenko, Andrey E. Ustyuzhanin

分类: cs.CL

发布日期: 2025-09-26 (更新: 2025-10-06)

🔗 代码/项目: GITHUB


💡 一句话要点

提出ML2B多语言机器学习基准,评估AutoML模型跨语言代码生成能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言机器学习 代码生成 AutoML 基准测试 自然语言处理

📋 核心要点

  1. 现有机器学习代码生成基准主要集中于英语,忽略了多语言环境下的实际应用需求。
  2. ML2B基准通过将Kaggle竞赛翻译成多种语言,为多语言机器学习代码生成提供评估平台。
  3. 实验结果表明,现有模型在非英语任务上性能显著下降,揭示了多语言代码生成的挑战。

📝 摘要(中文)

大型语言模型(LLMs)最近在生成机器学习(ML)代码方面表现出强大的能力,能够从自然语言指令构建端到端pipeline。然而,现有的ML代码生成基准主要局限于英语,忽略了ML研究和实践的全球性和多语言性。为了解决这一差距,我们提出了ML2B,这是第一个用于评估多语言ML代码生成的基准。ML2B包含30个Kaggle竞赛,翻译成13种自然语言,涵盖表格数据、文本数据和图像数据类型,具有结构化元数据和经过验证的人工审核翻译。为了评估,我们采用了AIDE,这是一个用于端到端评估数据科学pipeline的自动化框架,并提供了对跨语言模型性能的见解。我们的结果表明,非英语任务的性能显著下降15-45%,突出了多语言表示学习在代码生成方面的关键挑战。该基准、评估框架和全面的结果通过我们的GitHub存储库提供,以促进未来在多语言ML代码生成方面的研究:https://github.com/enaix/ml2b。

🔬 方法详解

问题定义:现有机器学习代码生成基准主要使用英语,无法有效评估模型在其他语言环境下的性能。这限制了模型在多语言环境中的应用,并且忽略了全球范围内机器学习研究人员的需求。现有方法缺乏对不同语言数据和指令的适应性,导致在非英语任务中性能下降。

核心思路:ML2B的核心思路是创建一个多语言的机器学习基准,通过将现有的Kaggle竞赛翻译成多种自然语言,来评估模型在不同语言环境下的代码生成能力。这样可以更全面地了解模型在处理不同语言数据和指令时的表现,并促进多语言机器学习代码生成的研究。

技术框架:ML2B基准包含30个Kaggle竞赛,涵盖表格数据、文本数据和图像数据类型。这些竞赛被翻译成13种自然语言,并提供结构化元数据和人工审核的翻译。评估框架采用AIDE,一个自动化的端到端数据科学pipeline评估工具。整个流程包括:数据准备、模型训练、代码生成、AIDE评估和结果分析。

关键创新:ML2B最重要的创新点在于它是第一个多语言的机器学习代码生成基准。它通过提供多种语言的数据和任务,使得研究人员可以更全面地评估模型在不同语言环境下的性能。此外,ML2B还提供了结构化的元数据和人工审核的翻译,保证了数据的质量和可靠性。

关键设计:ML2B的关键设计包括:选择具有代表性的Kaggle竞赛,覆盖不同的数据类型和任务;使用高质量的翻译,并进行人工审核;采用AIDE自动化评估框架,减少人工干预;提供详细的元数据,方便研究人员使用和分析数据。具体的参数设置和损失函数取决于所使用的机器学习模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有模型在非英语任务上的性能显著下降15-45%,这突显了多语言表示学习在代码生成方面的挑战。使用ML2B基准可以更准确地评估模型在不同语言环境下的性能,并为改进模型提供有价值的反馈。该基准的发布将促进多语言机器学习代码生成领域的研究。

🎯 应用场景

ML2B基准可用于评估和改进大型语言模型在多语言环境下的代码生成能力,促进AutoML技术在全球范围内的应用。该基准有助于开发更通用、更易于使用的机器学习工具,降低机器学习的门槛,使更多人能够利用机器学习解决实际问题。未来,ML2B可以扩展到更多语言和任务,进一步推动多语言机器学习的发展。

📄 摘要(原文)

Large language models (LLMs) have recently demonstrated strong capabilities in generating machine learning (ML) code, enabling end-to-end pipeline construction from natural language instructions. However, existing benchmarks for ML code generation are mainly restricted to English, overlooking the global and multilingual nature of ML research and practice. To address this gap, we present ML2B, the first benchmark for evaluating multilingual ML code generation. ML2B consists of 30 Kaggle competitions translated into 13 natural languages, covering tabular, text, and image data types, with structured metadata and validated human-reviewed translations. For evaluation, we employ AIDE, an automated framework for end-to-end assessment of data science pipelines, and provide insights into cross-lingual model performance. Our results reveal substantial 15-45% performance degradation on non-English tasks, highlighting critical challenges in multilingual representation learning for code generation. The benchmark, evaluation framework, and comprehensive results are made available through our GitHub repository to facilitate future research in multilingual ML code generation: https://github.com/enaix/ml2b.