CodeMirage: A Multi-Lingual Benchmark for Detecting AI-Generated and Paraphrased Source Code from Production-Level LLMs

📄 arXiv: 2506.11059v1 📥 PDF

作者: Hanxi Guo, Siyuan Cheng, Kaiyuan Zhang, Guangyu Shen, Xiangyu Zhang

分类: cs.SE, cs.CL, cs.CY, cs.LG

发布日期: 2025-05-27


💡 一句话要点

CodeMirage:一个用于检测生产级LLM生成的和释义源代码的多语言基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI生成代码检测 大型语言模型 基准数据集 代码释义 软件安全

📋 核心要点

  1. 现有AI代码检测基准覆盖语言有限,且依赖能力较弱的生成模型,难以反映真实场景。
  2. CodeMirage通过覆盖十种语言、包含原始和释义代码,以及使用先进生产级LLM生成代码来构建更全面的基准。
  3. 实验评估了多种检测器,揭示了现有方法的优缺点,为未来研究指明方向,提供了一个实用测试平台。

📝 摘要(中文)

大型语言模型(LLMs)已成为现代软件开发不可或缺的一部分,产生了大量的AI生成的源代码。虽然这些模型提高了编程效率,但它们的滥用会带来严重风险,包括代码抄袭、违反许可和传播不安全程序。因此,对AI生成代码的可靠检测至关重要。为了支持此类检测器的开发,一个反映真实情况的综合基准至关重要。然而,现有的基准存在不足——大多数只涵盖有限的编程语言集,并且依赖于能力较弱的生成模型。在本文中,我们提出了CodeMirage,这是一个综合基准,通过三个主要改进解决了这些限制:(1)它跨越了十种广泛使用的编程语言,(2)包括原始和释义的代码样本,以及(3)整合了来自十个最先进的生产级LLM的输出,包括来自六个主要供应商的推理和非推理模型。使用CodeMirage,我们评估了四种现实评估配置下四种方法论范例中的十个代表性检测器,并使用三个互补指标报告结果。我们的分析揭示了九个关键发现,揭示了当前检测器的优势和劣势,并确定了未来工作的关键挑战。我们相信CodeMirage提供了一个严格而实用的试验台,以推进稳健和通用的AI生成代码检测器的开发。

🔬 方法详解

问题定义:论文旨在解决AI生成代码的检测问题,特别是来自生产级大型语言模型(LLMs)生成的代码,以及对原始代码进行释义后的变体。现有方法的痛点在于缺乏一个全面、多语言、且能反映真实LLM生成代码特征的基准数据集,导致现有检测器在实际应用中表现不佳。

核心思路:论文的核心思路是构建一个更具代表性和挑战性的基准数据集CodeMirage,该数据集包含多种编程语言、原始代码和释义代码,以及由多个最先进的生产级LLM生成的代码。通过在该基准上评估现有检测器,可以更准确地了解它们的性能,并识别未来的研究方向。

技术框架:CodeMirage的构建流程主要包含以下几个阶段:1) 选择十种广泛使用的编程语言;2) 收集原始代码样本;3) 使用多个生产级LLM(包括推理和非推理模型)生成代码和释义代码;4) 构建包含原始代码、生成代码和释义代码的综合数据集。然后,使用该数据集评估十个代表性的AI生成代码检测器,并使用多个指标进行性能评估。

关键创新:CodeMirage的关键创新在于其数据集的全面性和真实性。它不仅覆盖了多种编程语言,还包含了释义代码,并且使用了最先进的生产级LLM生成代码。这使得该基准更具挑战性,更能反映真实世界中AI生成代码的特征。此外,论文还对现有检测器进行了全面的评估,并揭示了它们的优缺点。

关键设计:论文的关键设计包括:1) 选择了十种广泛使用的编程语言,以确保基准的覆盖范围;2) 使用了多个生产级LLM,以确保生成代码的多样性和真实性;3) 包含了释义代码,以增加检测的难度;4) 使用了多个指标进行性能评估,以确保评估的全面性。具体的参数设置、损失函数、网络结构等技术细节取决于被评估的检测器。

🖼️ 关键图片

img_0

📊 实验亮点

论文使用CodeMirage评估了十个代表性检测器,揭示了现有检测器的优势和劣势。例如,某些检测器在特定编程语言上表现良好,但在其他语言上表现较差。此外,释义代码的检测仍然是一个挑战。这些发现为未来的研究提供了重要的指导,并表明需要开发更通用和鲁棒的AI生成代码检测器。

🎯 应用场景

该研究成果可应用于软件安全、知识产权保护、代码质量控制等领域。通过使用CodeMirage基准,可以开发更有效的AI生成代码检测器,从而防止代码抄袭、许可证违规和不安全程序的传播。这有助于提高软件开发的安全性、可靠性和合规性,并促进负责任的AI应用。

📄 摘要(原文)

Large language models (LLMs) have become integral to modern software development, producing vast amounts of AI-generated source code. While these models boost programming productivity, their misuse introduces critical risks, including code plagiarism, license violations, and the propagation of insecure programs. As a result, robust detection of AI-generated code is essential. To support the development of such detectors, a comprehensive benchmark that reflects real-world conditions is crucial. However, existing benchmarks fall short -- most cover only a limited set of programming languages and rely on less capable generative models. In this paper, we present CodeMirage, a comprehensive benchmark that addresses these limitations through three major advancements: (1) it spans ten widely used programming languages, (2) includes both original and paraphrased code samples, and (3) incorporates outputs from ten state-of-the-art production-level LLMs, including both reasoning and non-reasoning models from six major providers. Using CodeMirage, we evaluate ten representative detectors across four methodological paradigms under four realistic evaluation configurations, reporting results using three complementary metrics. Our analysis reveals nine key findings that uncover the strengths and weaknesses of current detectors, and identify critical challenges for future work. We believe CodeMirage offers a rigorous and practical testbed to advance the development of robust and generalizable AI-generated code detectors.