AdaptEval: A Benchmark for Evaluating Large Language Models on Code Snippet Adaptation

📄 arXiv: 2601.04540v1 📥 PDF

作者: Tanghaoran Zhang, Xinjun Mao, Shangwen Wang, Yuxin Zhao, Yao Lu, Jin Zhang, Zhang Zhang, Kang Yang, Yue Yu

分类: cs.SE, cs.AI

发布日期: 2026-01-08

备注: 13 pages, 7 figures, Accepted by ASE 2025


💡 一句话要点

AdaptEval:用于评估大语言模型在代码片段适配能力上的基准测试

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 代码适配 大型语言模型 基准测试 软件工程 代码生成

📋 核心要点

  1. 现有代码生成基准缺乏对LLM在代码片段适配能力上的针对性评估,无法准确反映其在实际代码重用场景中的表现。
  2. AdaptEval通过构建包含实践上下文、多粒度标注和细粒度评估的基准,全面评估LLM在代码片段适配任务中的能力。
  3. 实验结果揭示了现有LLM在代码片段适配任务中的局限性,尤其是在遵循明确指令方面,为后续研究提供了重要方向。

📝 摘要(中文)

大型语言模型(LLMs)的最新进展已经实现了各种软件工程任务的自动化,并涌现出评估其能力的基准。然而,对于适配(代码重用过程中的关键活动),目前还没有基准来评估LLMs的性能,这使得它们在该领域的实际效用尚不清楚。为了填补这一空白,我们提出了AdaptEval,这是一个旨在评估LLMs在代码片段适配方面的基准。与现有基准不同,AdaptEval包含以下三个独特特征:首先,实践上下文。AdaptEval中的任务源于开发人员的实践,保留了来自Stack Overflow和GitHub社区的丰富上下文信息。其次,多粒度标注。每个任务都标有任务级别和适配级别的需求,支持评估LLMs在各种适配场景中的性能。第三,细粒度评估。AdaptEval包含一个两层测试框架,结合了适配级别和函数级别的测试,从而能够评估LLMs在各种个体适配方面的性能。基于AdaptEval,我们进行了首次实证研究,以评估六个指令调优的LLMs,特别是三个推理LLMs在代码片段适配方面的性能。实验结果表明,AdaptEval能够从各个角度评估LLMs的适配能力。它还提供了对其当前局限性的重要见解,特别是它们难以遵循明确的指令。我们希望AdaptEval能够促进对LLMs在代码片段适配方面的能力进行进一步的调查和增强,从而支持它们在现实世界中的应用。

🔬 方法详解

问题定义:论文旨在解决缺乏针对大型语言模型(LLMs)在代码片段适配能力评估基准的问题。现有基准测试无法充分评估LLMs在实际代码重用场景中的性能,尤其是在需要根据上下文进行代码修改和调整的情况下。现有方法的痛点在于缺乏对代码适配过程的细粒度评估和对实际开发上下文的考虑。

核心思路:论文的核心思路是构建一个更贴近实际开发场景的基准测试,即AdaptEval。该基准测试包含来自Stack Overflow和GitHub的真实代码片段和问题描述,并提供多粒度的标注,以便更全面地评估LLMs在代码适配方面的能力。通过细粒度的评估,可以深入了解LLMs在不同适配场景下的表现,并发现其潜在的局限性。

技术框架:AdaptEval的整体框架包括以下几个主要部分:1) 数据收集:从Stack Overflow和GitHub等平台收集包含代码片段和相关上下文的任务。2) 多粒度标注:对每个任务进行任务级别和适配级别的需求标注,以支持不同粒度的评估。3) 两层测试框架:设计适配级别和函数级别的测试,以评估LLMs在各种个体适配方面的性能。4) 评估指标:使用多种评估指标来衡量LLMs生成的代码的正确性、效率和可读性。

关键创新:AdaptEval的关键创新在于其三个独特特征:1) 实践上下文:任务来源于开发者的实际实践,保留了丰富的上下文信息。2) 多粒度标注:任务同时标注了任务级别和适配级别的需求,支持对LLMs在不同适配场景下的评估。3) 细粒度评估:包含一个两层测试框架,结合了适配级别和函数级别的测试,能够评估LLMs在各种个体适配方面的性能。与现有方法相比,AdaptEval更注重实际应用场景和细粒度的评估。

关键设计:AdaptEval的关键设计包括:1) 任务选择:选择具有代表性的代码片段适配任务,覆盖不同的编程语言和应用场景。2) 标注规范:制定清晰的标注规范,确保标注的一致性和准确性。3) 测试用例生成:设计有效的测试用例,覆盖不同的适配场景和边界条件。4) 评估指标选择:选择合适的评估指标,全面衡量LLMs生成的代码的质量。

📊 实验亮点

实验结果表明,AdaptEval能够有效评估LLMs的适配能力,并揭示了它们在遵循明确指令方面的局限性。例如,实验评估了六个指令调优的LLMs,特别是三个推理LLMs在代码片段适配方面的性能。结果显示,即使是经过指令调优的LLMs,在处理复杂的代码适配任务时仍然存在困难,尤其是在需要根据上下文进行推理和修改代码时。这些发现为后续研究提供了重要的参考。

🎯 应用场景

AdaptEval可用于评估和提升大型语言模型在软件开发领域的应用能力,例如代码自动补全、代码重构、代码修复等。通过该基准测试,可以更好地了解LLMs在处理实际代码适配任务时的优势和不足,从而指导LLMs的优化和改进,最终提高软件开发的效率和质量。该研究的成果有助于推动AI在软件工程领域的更广泛应用。

📄 摘要(原文)

Recent advancements in large language models (LLMs) have automated various software engineering tasks, with benchmarks emerging to evaluate their capabilities. However, for adaptation, a critical activity during code reuse, there is no benchmark to assess LLMs' performance, leaving their practical utility in this area unclear. To fill this gap, we propose AdaptEval, a benchmark designed to evaluate LLMs on code snippet adaptation. Unlike existing benchmarks, AdaptEval incorporates the following three distinctive features: First, Practical Context. Tasks in AdaptEval are derived from developers' practices, preserving rich contextual information from Stack Overflow and GitHub communities. Second, Multi-granularity Annotation. Each task is annotated with requirements at both task and adaptation levels, supporting the evaluation of LLMs across diverse adaptation scenarios. Third, Fine-grained Evaluation. AdaptEval includes a two-tier testing framework combining adaptation-level and function-level tests, which enables evaluating LLMs' performance across various individual adaptations. Based on AdaptEval, we conduct the first empirical study to evaluate six instruction-tuned LLMs and especially three reasoning LLMs on code snippet adaptation. Experimental results demonstrate that AdaptEval enables the assessment of LLMs' adaptation capabilities from various perspectives. It also provides critical insights into their current limitations, particularly their struggle to follow explicit instructions. We hope AdaptEval can facilitate further investigation and enhancement of LLMs' capabilities in code snippet adaptation, supporting their real-world applications.