DARE-bench: Evaluating Modeling and Instruction Fidelity of LLMs in Data Science
作者: Fan Shu, Yite Wang, Ruofan Wu, Boyi Liu, Zhewei Yao, Yuxiong He, Feng Yan
分类: cs.AI, cs.CL
发布日期: 2026-02-27
备注: Published as a conference paper at ICLR 2026. 10 pages plus appendix
💡 一句话要点
DARE-bench:评估LLM在数据科学中建模和指令遵循的基准
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 数据科学 基准测试 机器学习建模 指令遵循 可复现性 Kaggle 微调
📋 核心要点
- 现有数据科学LLM基准缺乏对指令遵循和过程保真度的标准化评估,且训练数据不足。
- DARE-bench通过提供可验证的ground truth和大规模Kaggle任务,实现客观可复现的评估。
- 实验表明,DARE-bench可有效评估LLM在数据科学任务中的性能,并作为微调数据显著提升模型效果。
📝 摘要(中文)
本文提出了DARE-bench,一个用于评估大型语言模型(LLM)在机器学习建模和数据科学指令遵循方面的基准。现有基准测试缺乏标准化的、过程感知的评估,难以捕捉指令遵循和过程保真度,并且缺乏准确标注的训练数据。DARE-bench通过提供可验证的ground truth来确保客观和可复现的评估,从而弥补了这些差距。DARE-bench包含6300个源自Kaggle的任务,并提供大规模的训练数据和评估集,以覆盖广泛的任务并支持智能体工具。实验表明,即使是像gpt-o4-mini这样强大的模型也难以取得良好的性能,尤其是在机器学习建模任务中。使用DARE-bench的训练任务进行微调可以显著提高模型性能。例如,监督微调使Qwen3-32B的准确率提高了1.83倍,强化学习使Qwen3-4B的准确率提高了8倍以上。这些显著的改进验证了DARE-bench作为精确评估基准和关键训练数据的重要性。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)在处理复杂的多步骤数据科学任务时面临挑战。现有的基准测试主要存在两个痛点:一是缺乏标准化的、过程感知的评估方法,无法准确衡量模型对指令的遵循程度和过程的保真度;二是缺乏高质量、大规模的训练数据,限制了模型性能的提升。
核心思路:DARE-bench的核心思路是构建一个具有可验证的ground truth的数据科学基准,从而实现客观、可复现的评估。通过提供大规模的、源自Kaggle的任务,覆盖广泛的数据科学场景,并支持智能体工具的使用。同时,DARE-bench也提供高质量的训练数据,用于微调LLM,提升其在数据科学任务中的性能。
技术框架:DARE-bench主要包含以下几个部分:1) Kaggle任务数据集:包含6300个源自Kaggle的数据科学任务,涵盖多种机器学习建模和数据分析场景。2) 评估指标:采用可验证的ground truth作为评估标准,避免了主观的人工评估或模型评估。3) 训练数据:提供大规模的训练数据,用于微调LLM,提升其在数据科学任务中的性能。4) 智能体工具支持:支持智能体工具的使用,方便进行自动化数据科学任务。
关键创新:DARE-bench的关键创新在于其客观性和可复现性。通过使用可验证的ground truth,避免了主观评估带来的偏差。此外,DARE-bench提供大规模的、多样化的Kaggle任务,能够更全面地评估LLM在数据科学领域的性能。与现有基准相比,DARE-bench更注重过程的保真度,能够更准确地衡量模型对指令的理解和执行能力。
关键设计:DARE-bench的任务设计涵盖了数据预处理、特征工程、模型选择、模型训练、模型评估等多个环节。在训练数据方面,DARE-bench提供了多种形式的数据,包括原始数据、处理后的数据、代码片段等。在评估指标方面,DARE-bench采用了多种指标,包括准确率、F1值、AUC等,以全面评估模型的性能。具体参数设置和损失函数等细节未在论文中详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是强大的模型如gpt-o4-mini在DARE-bench上也表现不佳,尤其是在机器学习建模任务中。使用DARE-bench的训练数据进行微调可以显著提高模型性能。例如,监督微调使Qwen3-32B的准确率提高了1.83倍,而强化学习使Qwen3-4B的准确率提高了8倍以上。这些结果验证了DARE-bench作为评估基准和训练数据的重要性。
🎯 应用场景
DARE-bench可应用于评估和提升大型语言模型在数据科学领域的应用能力。该基准能够帮助研究人员和开发者更准确地了解LLM在数据建模、分析和指令遵循方面的表现,并指导模型优化和微调。此外,DARE-bench提供的大规模训练数据可用于提升LLM在实际数据科学任务中的性能,推动LLM在自动化数据分析、智能决策等领域的应用。
📄 摘要(原文)
The fast-growing demands in using Large Language Models (LLMs) to tackle complex multi-step data science tasks create an emergent need for accurate benchmarking. There are two major gaps in existing benchmarks: (i) the lack of standardized, process-aware evaluation that captures instruction adherence and process fidelity, and (ii) the scarcity of accurately labeled training data. To bridge these gaps, we introduce DARE-bench, a benchmark designed for machine learning modeling and data science instruction following. Unlike many existing benchmarks that rely on human- or model-based judges, all tasks in DARE-bench have verifiable ground truth, ensuring objective and reproducible evaluation. To cover a broad range of tasks and support agentic tools, DARE-bench consists of 6,300 Kaggle-derived tasks and provides both large-scale training data and evaluation sets. Extensive evaluations show that even highly capable models such as gpt-o4-mini struggle to achieve good performance, especially in machine learning modeling tasks. Using DARE-bench training tasks for fine-tuning can substantially improve model performance. For example, supervised fine-tuning boosts Qwen3-32B's accuracy by 1.83x and reinforcement learning boosts Qwen3-4B's accuracy by more than 8x. These significant improvements verify the importance of DARE-bench both as an accurate evaluation benchmark and critical training data.