DARE-bench: Evaluating Modeling and Instruction Fidelity of LLMs in Data Science

作者: Fan Shu, Yite Wang, Ruofan Wu, Boyi Liu, Zhewei Yao, Yuxiong He, Feng Yan

分类: cs.AI, cs.CL

发布日期: 2026-02-27

备注: Published as a conference paper at ICLR 2026. 10 pages plus appendix

💡 一句话要点

DARE-bench：评估LLM在数据科学中建模和指令遵循的基准

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数据科学 基准测试 机器学习建模 指令遵循 可复现性 Kaggle 微调

📋 核心要点

现有数据科学LLM基准缺乏对指令遵循和过程保真度的标准化评估，且训练数据不足。
DARE-bench通过提供可验证的ground truth和大规模Kaggle任务，实现客观可复现的评估。
实验表明，DARE-bench可有效评估LLM在数据科学任务中的性能，并作为微调数据显著提升模型效果。

📝 摘要（中文）

本文提出了DARE-bench，一个用于评估大型语言模型（LLM）在机器学习建模和数据科学指令遵循方面的基准。现有基准测试缺乏标准化的、过程感知的评估，难以捕捉指令遵循和过程保真度，并且缺乏准确标注的训练数据。DARE-bench通过提供可验证的ground truth来确保客观和可复现的评估，从而弥补了这些差距。DARE-bench包含6300个源自Kaggle的任务，并提供大规模的训练数据和评估集，以覆盖广泛的任务并支持智能体工具。实验表明，即使是像gpt-o4-mini这样强大的模型也难以取得良好的性能，尤其是在机器学习建模任务中。使用DARE-bench的训练任务进行微调可以显著提高模型性能。例如，监督微调使Qwen3-32B的准确率提高了1.83倍，强化学习使Qwen3-4B的准确率提高了8倍以上。这些显著的改进验证了DARE-bench作为精确评估基准和关键训练数据的重要性。

🔬 方法详解

问题定义：现有的大型语言模型（LLM）在处理复杂的多步骤数据科学任务时面临挑战。现有的基准测试主要存在两个痛点：一是缺乏标准化的、过程感知的评估方法，无法准确衡量模型对指令的遵循程度和过程的保真度；二是缺乏高质量、大规模的训练数据，限制了模型性能的提升。

核心思路：DARE-bench的核心思路是构建一个具有可验证的ground truth的数据科学基准，从而实现客观、可复现的评估。通过提供大规模的、源自Kaggle的任务，覆盖广泛的数据科学场景，并支持智能体工具的使用。同时，DARE-bench也提供高质量的训练数据，用于微调LLM，提升其在数据科学任务中的性能。

技术框架：DARE-bench主要包含以下几个部分：1) Kaggle任务数据集：包含6300个源自Kaggle的数据科学任务，涵盖多种机器学习建模和数据分析场景。2) 评估指标：采用可验证的ground truth作为评估标准，避免了主观的人工评估或模型评估。3) 训练数据：提供大规模的训练数据，用于微调LLM，提升其在数据科学任务中的性能。4) 智能体工具支持：支持智能体工具的使用，方便进行自动化数据科学任务。

关键创新：DARE-bench的关键创新在于其客观性和可复现性。通过使用可验证的ground truth，避免了主观评估带来的偏差。此外，DARE-bench提供大规模的、多样化的Kaggle任务，能够更全面地评估LLM在数据科学领域的性能。与现有基准相比，DARE-bench更注重过程的保真度，能够更准确地衡量模型对指令的理解和执行能力。

关键设计：DARE-bench的任务设计涵盖了数据预处理、特征工程、模型选择、模型训练、模型评估等多个环节。在训练数据方面，DARE-bench提供了多种形式的数据，包括原始数据、处理后的数据、代码片段等。在评估指标方面，DARE-bench采用了多种指标，包括准确率、F1值、AUC等，以全面评估模型的性能。具体参数设置和损失函数等细节未在论文中详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是强大的模型如gpt-o4-mini在DARE-bench上也表现不佳，尤其是在机器学习建模任务中。使用DARE-bench的训练数据进行微调可以显著提高模型性能。例如，监督微调使Qwen3-32B的准确率提高了1.83倍，而强化学习使Qwen3-4B的准确率提高了8倍以上。这些结果验证了DARE-bench作为评估基准和训练数据的重要性。

🎯 应用场景

DARE-bench可应用于评估和提升大型语言模型在数据科学领域的应用能力。该基准能够帮助研究人员和开发者更准确地了解LLM在数据建模、分析和指令遵循方面的表现，并指导模型优化和微调。此外，DARE-bench提供的大规模训练数据可用于提升LLM在实际数据科学任务中的性能，推动LLM在自动化数据分析、智能决策等领域的应用。

📄 摘要（原文）

The fast-growing demands in using Large Language Models (LLMs) to tackle complex multi-step data science tasks create an emergent need for accurate benchmarking. There are two major gaps in existing benchmarks: (i) the lack of standardized, process-aware evaluation that captures instruction adherence and process fidelity, and (ii) the scarcity of accurately labeled training data. To bridge these gaps, we introduce DARE-bench, a benchmark designed for machine learning modeling and data science instruction following. Unlike many existing benchmarks that rely on human- or model-based judges, all tasks in DARE-bench have verifiable ground truth, ensuring objective and reproducible evaluation. To cover a broad range of tasks and support agentic tools, DARE-bench consists of 6,300 Kaggle-derived tasks and provides both large-scale training data and evaluation sets. Extensive evaluations show that even highly capable models such as gpt-o4-mini struggle to achieve good performance, especially in machine learning modeling tasks. Using DARE-bench training tasks for fine-tuning can substantially improve model performance. For example, supervised fine-tuning boosts Qwen3-32B's accuracy by 1.83x and reinforcement learning boosts Qwen3-4B's accuracy by more than 8x. These significant improvements verify the importance of DARE-bench both as an accurate evaluation benchmark and critical training data.

DARE-bench: Evaluating Modeling and Instruction Fidelity of LLMs in Data Science

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理