Beyond Accuracy: Characterizing Code Comprehension Capabilities in (Large) Language Models

📄 arXiv: 2601.12951v1 📥 PDF

作者: Felix Mächtle, Jan-Niclas Serr, Nils Loose, Thomas Eisenbarth

分类: cs.SE, cs.AI

发布日期: 2026-01-19

备注: Published in the Proceedings of DeepTest 2026


💡 一句话要点

提出诊断框架以评估大型语言模型的代码理解能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 代码理解 性能评估 影子模型 软件工程 复杂性指标

📋 核心要点

  1. 现有基准测试无法全面评估大型语言模型的代码理解能力,导致对其性能的理解不足。
  2. 本文提出了一种新的诊断框架,将代码理解视为二元输入输出一致性任务,以便更好地评估模型性能。
  3. 实验结果显示,传统人类中心复杂性指标与LLM成功的相关性较低,而影子模型的预测性能显著提高,显示出新的规律性。

📝 摘要(中文)

大型语言模型(LLMs)在软件工程工作流程中日益普及,但现有基准测试仅提供粗略的性能总结,掩盖了这些模型的多样化能力和局限性。本文探讨了LLMs的代码理解性能是否与传统的人类中心软件指标一致,或反映出独特的非人类规律。我们引入了一种诊断框架,将代码理解重新定义为二元输入输出一致性任务,评估分类和生成模型。通过大规模数据集,我们将模型性能与传统的人类中心复杂性指标相关联,发现人类定义的指标与LLM成功之间的相关性极小,而影子模型则实现了显著更高的预测性能。这些发现强调了需要超越聚合准确性,向实例级诊断方法转变,同时承认在预测正确结果方面的基本限制。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在代码理解能力评估中的不足,现有方法未能充分捕捉模型的多样性和复杂性。

核心思路:我们提出了一种新的诊断框架,将代码理解重新定义为二元输入输出一致性任务,以便更精确地评估模型的分类和生成能力。

技术框架:该框架包括数据集构建、模型训练和性能评估三个主要模块。首先,利用大规模数据集进行模型训练,然后通过与传统复杂性指标的相关性分析来评估模型性能。

关键创新:最重要的创新在于引入影子模型,这些模型能够捕捉到传统软件度量之外的复杂、部分可预测的模式,从而显著提高预测性能。

关键设计:在模型训练过程中,我们采用了特定的损失函数和网络结构,以优化模型在二元一致性任务上的表现,同时调整了参数设置以适应不同的复杂性指标。

📊 实验亮点

实验结果表明,传统人类中心复杂性指标与LLM成功的相关性仅为0.63,而影子模型的AUROC达到了0.86,显示出显著的性能提升。这一发现强调了现有评估方法的局限性,并为未来的研究提供了新的方向。

🎯 应用场景

该研究的潜在应用领域包括软件开发工具、代码审查系统和自动化测试平台。通过更准确地评估大型语言模型的代码理解能力,可以提升软件工程的效率和质量,推动智能编程助手的发展。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly integrated into software engineering workflows, yet current benchmarks provide only coarse performance summaries that obscure the diverse capabilities and limitations of these models. This paper investigates whether LLMs' code-comprehension performance aligns with traditional human-centric software metrics or instead reflects distinct, non-human regularities. We introduce a diagnostic framework that reframes code understanding as a binary input-output consistency task, enabling the evaluation of classification and generative models. Using a large-scale dataset, we correlate model performance with traditional, human-centric complexity metrics, such as lexical size, control-flow complexity, and abstract syntax tree structure. Our analyses reveal minimal correlation between human-defined metrics and LLM success (AUROC 0.63), while shadow models achieve substantially higher predictive performance (AUROC 0.86), capturing complex, partially predictable patterns beyond traditional software measures. These findings suggest that LLM comprehension reflects model-specific regularities only partially accessible through either human-designed or learned features, emphasizing the need for benchmark methodologies that move beyond aggregate accuracy and toward instance-level diagnostics, while acknowledging fundamental limits in predicting correct outcomes.