HackerRank-ASTRA: Evaluating Correctness & Consistency of Large Language Models on cross-domain multi-file project problems
作者: Jun Xing, Mayur Bhatia, Sahil Phulwani, Darshan Suresh, Rafik Matta
分类: cs.LG, cs.SE
发布日期: 2025-01-31
备注: 24 pages, 25 figures
💡 一句话要点
HackerRank-ASTRA:评估大语言模型在跨领域多文件项目中的正确性和一致性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 代码生成 软件开发 基准测试 一致性评估
📋 核心要点
- 现有代码大模型评测benchmark缺乏对多文件项目和模型一致性的有效评估。
- HackerRank-ASTRA通过构建项目级代码问题,多次运行评估模型的一致性。
- 实验表明,Claude-3.5-Sonnet-1022在一致性方面表现最佳,变异性最低。
📝 摘要(中文)
HackerRank-ASTRA基准测试旨在评估大型语言模型(LLMs)在软件开发任务中的实际应用能力。现有基准测试通常侧重于独立的编码问题或特定库,忽略了多文件、基于项目的场景,并且缺乏对一致性的严格评估。HackerRank-ASTRA引入了模拟真实场景的基于项目的编码问题。它通过32次运行(k = 32)和中位数标准差来评估模型的一致性,同时结合分类级别的分析来评估子技能能力。对65个问题的初步评估表明,排名前三的模型——o1、o1-preview和Claude-3.5-Sonnet-1022——取得了可比较的平均分数75%,性能上没有统计学上的显著差异。值得注意的是,Claude-3.5-Sonnet-1022在问题上表现出最高的一致性,具有较低的变异性(SD = 0.0497),与其他模型相比具有统计学意义,突显了其在实际软件开发任务中的可靠性。
🔬 方法详解
问题定义:现有的大语言模型评测基准主要集中在孤立的编码问题或特定库的使用上,缺乏对真实软件开发场景中常见的多文件、项目级问题的评估。此外,现有方法通常忽略了模型在多次运行中结果的一致性,这对于实际应用至关重要。因此,需要一个能够全面评估模型在复杂项目环境中正确性和一致性的基准。
核心思路:HackerRank-ASTRA的核心思路是构建一个更贴近真实软件开发场景的评测基准,通过引入多文件、项目级的编码问题来模拟实际开发中的复杂性。同时,通过多次运行相同的测试用例,并分析结果的变异性,来评估模型的一致性。这种方法能够更全面地反映模型在实际应用中的可靠性。
技术框架:HackerRank-ASTRA基准测试包含以下主要组成部分: 1. 项目级编码问题集:包含多个跨领域的多文件项目,模拟真实软件开发场景。 2. 一致性评估机制:对每个问题进行多次运行(k=32),并计算结果的中位数标准差,以评估模型的一致性。 3. 分类级别分析:对模型的子技能进行分类评估,以更细粒度地了解模型的优缺点。
关键创新:HackerRank-ASTRA的关键创新在于其对多文件项目和模型一致性的关注。与现有基准测试相比,它更贴近真实软件开发场景,能够更全面地评估模型的实际应用能力。通过多次运行和变异性分析,可以更准确地评估模型在实际应用中的可靠性。
关键设计:HackerRank-ASTRA的关键设计包括: 1. 问题选择:选择具有代表性的跨领域多文件项目,覆盖不同的编程范式和技术栈。 2. 测试用例设计:设计全面的测试用例,覆盖各种边界条件和异常情况。 3. 一致性指标:使用中位数标准差作为一致性指标,能够有效衡量模型结果的变异性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Claude-3.5-Sonnet-1022在HackerRank-ASTRA基准测试中表现出最高的一致性,其标准差(SD = 0.0497)显著低于其他模型,表明其在多次运行中能够产生更稳定的结果。虽然前三名模型(o1、o1-preview和Claude-3.5-Sonnet-1022)的平均得分相近(约75%),但在一致性方面存在显著差异,突显了Claude-3.5-Sonnet-1022在实际应用中的优势。
🎯 应用场景
该研究成果可应用于评估和选择适合特定软件开发任务的大语言模型。通过HackerRank-ASTRA基准测试,开发者可以更全面地了解模型在复杂项目环境中的性能和可靠性,从而做出更明智的决策。此外,该基准测试还可以促进大语言模型在软件开发领域的进一步发展,推动自动化代码生成和代码辅助工具的创新。
📄 摘要(原文)
Evaluating the real-world applicability of large language models (LLMs) provides valuable insights for their development and use in software development tasks. Existing benchmarks often focus on standalone coding problems or specific libraries, overlooking multi-file, project-based scenarios and lacking a rigorous evaluation of consistency. The HackerRank-ASTRA Benchmark introduces project-based coding problems that mirror real-world scenarios. It evaluates model consistency through 32 runs (k = 32) and median standard deviation while incorporating taxonomy-level analysis to assess sub-skill capabilities. Initial evaluations on 65 problems show that the top three models -- o1, o1-preview, and Claude-3.5-Sonnet-1022 -- achieved comparable average scores of 75%, with no statistically significant differences in performance. Notably, Claude-3.5-Sonnet-1022 demonstrated the highest consistency across problems, with low variability (SD = 0.0497), which was statistically significant compared to other models, highlighting its reliability for real-world software development tasks.