Towards Adaptive ML Benchmarks: Web-Agent-Driven Construction, Domain Expansion, and Metric Optimization
作者: Hangyi Jia, Yuxi Qian, Hanwen Tong, Xinhui Wu, Lin Chen, Feng Wei
分类: cs.AI
发布日期: 2025-09-11
💡 一句话要点
提出TAM Bench:一个基于Web Agent驱动的自适应机器学习基准,用于评估LLM在端到端ML任务中的能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器学习基准 LLM Agent AutoML Web Agent 难度建模 自动化任务获取 多模态数据 端到端ML
📋 核心要点
- 现有ML基准在任务覆盖、领域多样性、难度建模和评估严谨性方面存在局限,无法充分捕捉LLM Agent在真实场景中的能力。
- TAM Bench利用Web Agent自动从多个平台抓取ML任务,并使用排行榜数据进行难度建模,构建更全面、更真实的基准。
- TAM Bench包含不同规模的子集,并采用多维度评估框架,可以更灵活、更细致地评估LLM Agent的性能。
📝 摘要(中文)
本文提出TAM Bench,一个多样、真实且结构化的基准,用于评估基于LLM的Agent在端到端机器学习任务中的能力。TAM Bench具有三个关键创新点:(1) 一个基于浏览器自动化和LLM的任务获取系统,能够自动从Kaggle、AIcrowd和Biendata等平台收集和构建ML挑战,涵盖多种任务类型和数据模态(如表格、文本、图像、图、音频);(2) 一个基于排行榜的难度建模机制,利用参与者数量和分数分布来估计任务复杂度,实现可扩展和客观的任务校准;(3) 一个多维度评估框架,包含性能、格式合规性、约束遵守和任务泛化能力。基于150个精选的AutoML任务,构建了Lite、Medium和Full三个不同大小的基准子集,以适应不同的评估场景。Lite版本包含18个任务,在模态和难度级别上实现了平衡覆盖,可作为日常基准测试和比较研究的实用测试平台。
🔬 方法详解
问题定义:现有机器学习基准难以全面评估LLM Agent在端到端ML任务中的能力,主要痛点在于任务覆盖范围窄、领域多样性不足、难度建模不准确以及评估指标单一。这些局限性使得无法有效衡量LLM Agent在真实世界场景中的表现。
核心思路:TAM Bench的核心思路是利用Web Agent自动从多个在线平台抓取真实的ML竞赛任务,并结合排行榜信息进行难度建模,从而构建一个更具代表性和挑战性的基准。通过这种方式,可以克服现有基准在任务多样性和难度建模方面的不足。
技术框架:TAM Bench的整体框架包含三个主要模块:(1) 任务获取模块:使用浏览器自动化技术和LLM从Kaggle、AIcrowd等平台自动抓取ML任务,并进行结构化处理。(2) 难度建模模块:利用排行榜数据(如参与者数量、分数分布)估计任务的复杂度,并进行任务校准。(3) 评估模块:采用多维度评估框架,综合考虑性能、格式合规性、约束遵守和任务泛化能力。
关键创新:TAM Bench的关键创新在于其自动化的任务获取和难度建模机制。传统的基准构建通常依赖人工标注和筛选,效率低且主观性强。TAM Bench通过Web Agent和排行榜数据,实现了任务的自动获取和客观难度评估,大大提高了基准构建的效率和客观性。
关键设计:在任务获取模块中,使用了Selenium等浏览器自动化工具模拟用户行为,抓取网页内容。在难度建模模块中,使用了参与者数量的对数和分数分布的标准差作为任务复杂度的指标。评估模块则设计了多个评估指标,包括任务完成度、输出格式的正确性、资源使用的约束以及在不同任务上的泛化能力。
🖼️ 关键图片
📊 实验亮点
TAM Bench包含150个精选的AutoML任务,并构建了Lite、Medium和Full三个不同规模的子集。Lite版本包含18个任务,在模态和难度级别上实现了平衡覆盖,可作为日常基准测试的实用平台。实验结果(具体数值未知)表明,TAM Bench能够有效区分不同LLM Agent的性能,并揭示它们在不同任务上的优势和不足。
🎯 应用场景
TAM Bench可用于评估和比较不同LLM Agent在端到端机器学习任务中的能力,推动AutoML技术的发展。该基准还可以用于研究LLM Agent在不同数据模态和任务类型上的泛化能力,指导Agent的设计和优化。此外,TAM Bench的自动化任务获取和难度建模方法也可以应用于其他领域的基准构建。
📄 摘要(原文)
Recent advances in large language models (LLMs) have enabled the emergence of general-purpose agents for automating end-to-end machine learning (ML) workflows, including data analysis, feature engineering, model training, and competition solving. However, existing benchmarks remain limited in task coverage, domain diversity, difficulty modeling, and evaluation rigor, failing to capture the full capabilities of such agents in realistic settings. We present TAM Bench, a diverse, realistic, and structured benchmark for evaluating LLM-based agents on end-to-end ML tasks. TAM Bench features three key innovations: (1) A browser automation and LLM-based task acquisition system that automatically collects and structures ML challenges from platforms such as Kaggle, AIcrowd, and Biendata, spanning multiple task types and data modalities (e.g., tabular, text, image, graph, audio); (2) A leaderboard-driven difficulty modeling mechanism that estimates task complexity using participant counts and score dispersion, enabling scalable and objective task calibration; (3) A multi-dimensional evaluation framework incorporating performance, format compliance, constraint adherence, and task generalization. Based on 150 curated AutoML tasks, we construct three benchmark subsets of different sizes -- Lite, Medium, and Full -- designed for varying evaluation scenarios. The Lite version, with 18 tasks and balanced coverage across modalities and difficulty levels, serves as a practical testbed for daily benchmarking and comparative studies.