Assessing Code Understanding in LLMs

作者: Cosimo Laneve, Alvise Spanò, Dalila Ressi, Sabina Rossi, Michele Bugliesi

分类: cs.SE, cs.AI, cs.PL

发布日期: 2025-03-31

备注: 22 page, 7 tables, submitted at FORTE 2025

💡 一句话要点

评估LLM在代码理解中对语义保持变换的鲁棒性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 代码理解 大型语言模型 语义等价性 程序转换 实证评估

📋 核心要点

现有LLM在理解代码语义等价性方面存在不足，尤其是在面对语义保持的程序转换时。
该研究通过评估LLM对经过语义保持变换的代码的理解能力，揭示了其在代码理解方面的局限性。
实验结果表明，LLM在判断语义等价性方面存在显著误差，提示需要更有效的训练方法和工具支持。

📝 摘要（中文）

本文对大型语言模型（LLM）在代码理解方面的能力进行了实证评估，重点关注LLM对非平凡的、语义保持的程序转换（如复制传播或常量折叠）的理解能力。研究结果表明，在没有上下文的情况下，LLM在约41%的情况下无法判断语义等价性；即使提供简单的通用上下文，失败率也达到29%。为了提高准确性，我们建议将LLM与代码优化工具集成，以增强训练并促进更强大的程序理解。

🔬 方法详解

问题定义：论文旨在评估大型语言模型（LLM）在理解代码语义方面的能力，特别是当代码经过语义保持的程序转换（例如复制传播、常量折叠）后，LLM是否能够正确判断代码的语义等价性。现有方法，即直接使用LLM进行代码理解，在面对这些细微但重要的语义变化时，表现出明显的不足，导致对代码逻辑的误判。

核心思路：论文的核心思路是通过设计一系列实验，系统性地评估LLM在不同上下文条件下对语义保持变换后代码的理解能力。通过分析LLM判断语义等价性的准确率，揭示其在代码理解方面的局限性，并提出改进方向。核心在于量化LLM在处理语义保持变换时的误差率，从而为后续改进提供依据。

技术框架：该研究采用实证评估的方法。首先，选择一系列具有代表性的代码片段，并对其进行语义保持的程序转换。然后，将原始代码和转换后的代码输入到LLM中，要求LLM判断两段代码是否语义等价。实验设置包括有上下文和无上下文两种情况，其中上下文为简单的通用描述。最后，统计LLM判断的准确率，并分析误差产生的原因。

关键创新：该研究的关键创新在于，它首次系统性地评估了LLM在代码理解中对语义保持变换的鲁棒性。以往的研究主要关注LLM生成代码的能力，而忽略了其对代码语义的理解能力，特别是对经过细微变换后代码的理解。该研究填补了这一空白，为后续研究提供了新的视角。

关键设计：实验的关键设计在于选择合适的语义保持变换类型，例如复制传播和常量折叠，这些变换在不改变代码语义的前提下，改变了代码的结构。此外，实验还考虑了上下文的影响，通过提供简单的通用上下文，评估LLM在有上下文辅助下的代码理解能力。实验结果通过准确率来量化LLM的性能。

📊 实验亮点

实验结果表明，在没有上下文的情况下，LLM在约41%的情况下无法判断语义等价性；即使提供简单的通用上下文，失败率也达到29%。这表明LLM在代码理解方面存在显著的局限性，尤其是在面对语义保持的程序转换时。这些数据清晰地揭示了当前LLM在代码理解方面的不足。

🎯 应用场景

该研究成果可应用于提升代码自动优化、代码缺陷检测、代码克隆检测等领域。通过将LLM与代码优化工具集成，可以提高代码理解的准确性和效率，从而改进软件开发流程。此外，该研究也为开发更强大的代码理解模型提供了指导，有助于构建更智能的软件工程工具。

📄 摘要（原文）

We present an empirical evaluation of Large Language Models in code understanding associated with non-trivial, semantic-preserving program transformations such as copy propagation or constant folding. Our findings show that LLMs fail to judge semantic equivalence in approximately 41\% of cases when no context is provided and in 29\% when given a simple generic context. To improve accuracy, we advocate integrating LLMs with code-optimization tools to enhance training and facilitate more robust program understanding.

Assessing Code Understanding in LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理