Deep-Bench: Deep Learning Benchmark Dataset for Code Generation

作者: Alireza Daghighfarsoodeh, Chung-Yu Wang, Hamed Taherkhani, Melika Sepidband, Mohammad Abdollahi, Hadi Hemmati, Hung Viet Pham

分类: cs.SE, cs.AI, cs.LG

发布日期: 2025-02-26

💡 一句话要点

DeepBench：用于深度学习代码生成的新型基准数据集，覆盖完整DL流程。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 深度学习 代码生成 大型语言模型 基准数据集 自动化深度学习

📋 核心要点

现有DL代码生成基准（如DS-1000）主要关注预处理/后处理，缺乏对完整DL流程的覆盖，无法全面评估LLM在DL代码生成方面的能力。
DeepBench通过对DL问题进行多维度分类（阶段、任务、数据类型），构建了一个更全面、更具挑战性的函数级DL代码生成基准数据集。
实验表明，最先进的LLM在DeepBench上的表现远低于在DS-1000上的表现，突显了DeepBench的难度，并揭示了LLM在DL代码生成中面临的独特挑战。

📝 摘要（中文）

深度学习（DL）已经彻底改变了计算机视觉、自然语言处理等领域。然而，由于DL工作流程的复杂性，开发DL系统极具挑战性。大型语言模型（LLM），如GPT、Claude、Llama、Mistral等，已成为辅助DL代码生成的有前途的工具，为这些挑战提供了潜在的解决方案。尽管如此，现有的基准（如DS-1000）存在局限性，因为它们主要关注与预处理/后处理任务相关的小型DL代码片段，并且缺乏对完整DL流程（包括不同的DL阶段和输入数据类型）的全面覆盖。为了解决这个问题，我们引入了DeepBench，这是一个为函数级DL代码生成而设计的新型基准数据集。DeepBench根据三个关键方面对DL问题进行分类：阶段（如预处理、模型构建和训练）；任务（包括分类、回归和推荐）；以及输入数据类型（如表格、图像和文本）。GPT-4o在DeepBench上实现了31%的准确率，远低于其在DS-1000上的60%。我们观察到其他LLM也存在类似的困难。我们的分析还揭示了不同类别之间的显著性能差异，这表明DeepBench为LLM的性能以及DL领域潜在的改进领域提供了有价值的见解。

🔬 方法详解

问题定义：现有深度学习代码生成基准数据集，例如DS-1000，主要关注于深度学习流程中的预处理和后处理阶段，缺乏对模型构建、训练等核心阶段的覆盖。此外，现有基准对不同类型的数据（如图像、文本、表格数据）和任务（如分类、回归、推荐）的支持也不够全面。这导致无法充分评估大型语言模型（LLM）在生成完整深度学习代码方面的能力，也难以发现LLM在不同深度学习任务上的优缺点。

核心思路：DeepBench的核心思路是构建一个更全面、更具挑战性的深度学习代码生成基准数据集，覆盖深度学习流程的各个阶段（预处理、模型构建、训练），支持多种数据类型（图像、文本、表格数据），并包含多种任务类型（分类、回归、推荐）。通过对深度学习问题进行多维度分类，DeepBench能够更细粒度地评估LLM在生成深度学习代码方面的能力，并为LLM的改进提供更具体的指导。

技术框架：DeepBench的技术框架主要包括以下几个部分：1）深度学习问题分类体系：将深度学习问题按照阶段（预处理、模型构建、训练）、任务（分类、回归、推荐）和数据类型（图像、文本、表格数据）进行分类。2）数据集构建：针对每个类别，收集或生成相应的深度学习代码生成问题。3）评估指标：采用准确率作为评估LLM生成代码的指标。4）错误分析：对LLM生成的错误代码进行分类和分析，找出LLM在生成深度学习代码方面存在的共性问题。

关键创新：DeepBench的关键创新在于其全面性和细粒度。与现有基准相比，DeepBench覆盖了深度学习流程的各个阶段，支持多种数据类型和任务类型，能够更全面地评估LLM在生成深度学习代码方面的能力。此外，DeepBench的分类体系能够更细粒度地分析LLM在不同深度学习任务上的表现，为LLM的改进提供更具体的指导。

关键设计：DeepBench的关键设计包括：1）问题选择：选择具有代表性的深度学习问题，覆盖不同的阶段、任务和数据类型。2）代码生成目标：要求LLM生成函数级别的代码，而不是简单的代码片段。3）评估方法：采用严格的准确率评估，要求生成的代码能够正确运行并达到预期的效果。4）错误分类：设计了一套错误分类体系，对LLM生成的错误代码进行分类和分析，找出LLM在生成深度学习代码方面存在的共性问题。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GPT-4o在DeepBench上的准确率为31%，远低于其在DS-1000上的60%。其他LLM（如Claude、Llama、Mistral）也表现出类似的困难。此外，实验还发现，LLM在不同阶段和任务上的表现存在显著差异，例如，在不同阶段上的性能差异高达7%，在不同任务上的性能差异高达37%。这些结果表明，DeepBench能够有效区分不同LLM在深度学习代码生成方面的能力，并揭示LLM在不同深度学习任务上存在的优缺点。

🎯 应用场景

DeepBench可用于评估和比较不同LLM在深度学习代码生成方面的能力，帮助研究人员了解LLM在不同深度学习任务上的优缺点。此外，DeepBench还可以作为LLM训练的评估数据集，用于指导LLM的训练，提高其在深度学习代码生成方面的性能。该研究的成果有助于推动自动化深度学习的发展，降低深度学习的开发门槛。

📄 摘要（原文）

Deep learning (DL) has revolutionized areas such as computer vision, natural language processing, and more. However, developing DL systems is challenging due to the complexity of DL workflows. Large Language Models (LLMs), such as GPT, Claude, Llama, Mistral, etc., have emerged as promising tools to assist in DL code generation, offering potential solutions to these challenges. Despite this, existing benchmarks such as DS-1000 are limited, as they primarily focus on small DL code snippets related to pre/post-processing tasks and lack a comprehensive coverage of the full DL pipeline, including different DL phases and input data types. To address this, we introduce DeepBench, a novel benchmark dataset designed for function-level DL code generation. DeepBench categorizes DL problems based on three key aspects: phases such as pre-processing, model construction, and training; tasks, including classification, regression, and recommendation; and input data types such as tabular, image, and text. GPT-4o -- the state-of-the-art LLM -- achieved 31% accuracy on DeepBench, significantly lower than its 60% on DS-1000. We observed similar difficulty for other LLMs (e.g., 28% vs. 54% for Claude, 21% vs. 41% for LLaMA, and 15% vs. 20% for Mistral). This result underscores DeepBench's greater complexity. We also construct a taxonomy of issues and bugs found in LLM-generated DL code, which highlights the distinct challenges that LLMs face when generating DL code compared to general code. Furthermore, our analysis also reveals substantial performance variations across categories, with differences of up to 7% among phases and 37% among tasks. These disparities suggest that DeepBench offers valuable insights into the LLMs' performance and areas for potential improvement in the DL domain.

Deep-Bench: Deep Learning Benchmark Dataset for Code Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理