ML2B: Multi-Lingual ML Benchmark For AutoML

📄 arXiv: 2509.22768v2 📥 PDF

作者: Ekaterina Trofimova, Zosia Shamina, Maria Selifanova, Artem Zaitsev, Remi Savchuk, Maxim Minets, Daria Ozerova, Emil Sataev, Denis Zuenko, Andrey E. Ustyuzhanin

分类: cs.CL

发布日期: 2025-09-26 (更新: 2025-10-06)

🔗 代码/项目: GITHUB


💡 一句话要点

ML2B:首个用于AutoML的多语言机器学习基准测试,填补非英语ML代码生成评估空白。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言机器学习 代码生成 AutoML 基准测试 大型语言模型

📋 核心要点

  1. 现有机器学习代码生成基准主要集中于英语,忽略了多语言环境下的实际应用需求。
  2. ML2B通过提供多语言数据集和评估框架,旨在促进多语言机器学习代码生成的研究。
  3. 实验结果表明,非英语任务上的性能显著下降,揭示了多语言表示学习的挑战。

📝 摘要(中文)

大型语言模型(LLMs)最近在生成机器学习(ML)代码方面表现出强大的能力,能够从自然语言指令构建端到端的pipeline。然而,现有的ML代码生成基准主要局限于英语,忽略了ML研究和实践的全球化和多语言特性。为了解决这一差距,我们提出了ML2B,这是第一个用于评估多语言ML代码生成的基准。ML2B包含30个Kaggle竞赛,翻译成13种自然语言,涵盖表格数据、文本数据和图像数据类型,具有结构化元数据和经过验证的人工审核翻译。为了评估,我们采用了AIDE,这是一个用于端到端评估数据科学pipeline的自动化框架,并提供了对跨语言模型性能的见解。我们的结果表明,在非英语任务上,性能显著下降15-45%,突出了多语言表示学习在代码生成方面面临的关键挑战。该基准、评估框架和全面的结果通过我们的GitHub存储库提供,以促进未来在多语言ML代码生成方面的研究:https://github.com/enaix/ml2b。

🔬 方法详解

问题定义:现有的机器学习代码生成基准主要集中于英语,缺乏对其他语言的支持。这限制了LLM在多语言环境下的应用,阻碍了全球范围内ML研究和实践的发展。因此,需要一个多语言的基准测试来评估和提升LLM在生成非英语ML代码方面的能力。

核心思路:ML2B的核心思路是创建一个包含多种语言的、高质量的机器学习任务数据集,并提供一个自动化的评估框架,以便全面评估LLM在多语言环境下的代码生成能力。通过分析LLM在不同语言上的表现差异,可以更好地理解其在多语言表示学习方面的优势和不足,从而指导未来的研究方向。

技术框架:ML2B的技术框架主要包括以下几个部分:1) 数据集构建:选择30个Kaggle竞赛作为基础,涵盖表格数据、文本数据和图像数据类型。将这些竞赛的任务描述和数据翻译成13种自然语言,并进行人工审核,确保翻译质量。2) 评估框架:采用AIDE自动化框架,用于端到端评估数据科学pipeline的性能。AIDE能够自动运行生成的代码,并根据预定义的指标评估其性能。3) 性能分析:分析LLM在不同语言上的表现差异,并提供详细的性能报告,以便研究人员了解LLM在多语言环境下的优势和不足。

关键创新:ML2B的关键创新在于它是第一个用于评估多语言ML代码生成的基准测试。它不仅提供了多语言数据集,还提供了一个自动化的评估框架,使得研究人员可以方便地评估LLM在不同语言上的代码生成能力。此外,ML2B还提供了详细的性能分析报告,帮助研究人员了解LLM在多语言表示学习方面的优势和不足。

关键设计:ML2B的关键设计包括:1) 选择具有代表性的Kaggle竞赛,涵盖不同的数据类型和任务类型。2) 采用高质量的人工翻译,确保翻译的准确性和流畅性。3) 使用AIDE自动化框架,实现端到端的性能评估。4) 提供详细的性能分析报告,包括不同语言上的性能指标和错误分析。

📊 实验亮点

实验结果表明,在非英语任务上,LLM的性能显著下降15-45%,这突显了多语言表示学习在代码生成方面面临的挑战。该结果表明,现有的LLM在处理非英语任务时仍然存在明显的不足,需要进一步的研究和改进。ML2B基准的发布,为研究人员提供了一个评估和提升LLM在多语言环境下的代码生成能力的平台。

🎯 应用场景

ML2B基准测试可以应用于评估和提升大型语言模型在多语言环境下的机器学习代码生成能力。它有助于开发更通用、更易于使用的AutoML工具,降低机器学习的门槛,使更多的人能够利用机器学习解决实际问题。此外,该基准还可以促进多语言表示学习的研究,推动自然语言处理和机器学习的交叉融合。

📄 摘要(原文)

Large language models (LLMs) have recently demonstrated strong capabilities in generating machine learning (ML) code, enabling end-to-end pipeline construction from natural language instructions. However, existing benchmarks for ML code generation are mainly restricted to English, overlooking the global and multilingual nature of ML research and practice. To address this gap, we present ML2B, the first benchmark for evaluating multilingual ML code generation. ML2B consists of 30 Kaggle competitions translated into 13 natural languages, covering tabular, text, and image data types, with structured metadata and validated human-reviewed translations. For evaluation, we employ AIDE, an automated framework for end-to-end assessment of data science pipelines, and provide insights into cross-lingual model performance. Our results reveal substantial 15-45% performance degradation on non-English tasks, highlighting critical challenges in multilingual representation learning for code generation. The benchmark, evaluation framework, and comprehensive results are made available through our GitHub repository to facilitate future research in multilingual ML code generation: https://github.com/enaix/ml2b.