How AI Coding Agents Modify Code: A Large-Scale Study of GitHub Pull Requests

📄 arXiv: 2601.17581 📥 PDF

作者: Daniel Ogenrwot, John Businge

分类: cs.SE, cs.AI

发布日期: 2026-04-07


💡 一句话要点

大规模分析AI代码生成代理的Pull Request,揭示其代码修改模式与人工贡献的差异

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: AI代码生成 Pull Request分析 软件工程 实证研究 代码修改模式

📋 核心要点

  1. 现有研究缺乏对AI代码生成代理提交的PR与人工贡献差异的充分理解,阻碍了对其可靠性和影响的评估。
  2. 本研究通过分析大量Agentic PR和人工PR,对比代码修改模式和描述一致性,揭示二者之间的关键差异。
  3. 实验结果表明,Agentic PR在提交次数上与人工PR存在显著差异,描述与代码差异的相似度略高。

📝 摘要(中文)

本文旨在通过大规模实证研究,分析AI代码生成代理在GitHub上提交的Pull Request(PR)与人工贡献的差异,尤其关注代码修改方式和变更描述。理解这些差异对于评估AI代理的可靠性及其对开发工作流程的影响至关重要。研究使用了AIDev数据集的MSR 2026 Mining Challenge版本,分析了24014个已合并的Agentic PR(包含440295个提交)和5081个人工PR(包含23242个提交)。研究考察了代码的增加、删除、提交次数、修改文件数量,并使用词汇和语义相似度评估PR描述与其代码差异之间的一致性。结果表明,Agentic PR在提交次数(Cliff's $\delta = 0.5429$)上与人工PR存在显著差异,在修改文件数量和删除行数上存在中等差异。Agentic PR在描述与代码差异的相似度方面略高于人工PR。这些发现为AI代码生成代理如何参与开源开发提供了大规模的实证特征描述。

🔬 方法详解

问题定义:论文旨在研究AI代码生成代理在开源项目中提交的Pull Request(PR)与人类开发者提交的PR在代码修改行为上的差异。现有研究缺乏对这些差异的量化分析,难以评估AI代理对软件开发流程的实际影响,例如代码质量、开发效率以及潜在的风险。现有方法难以区分AI代理和人类开发者的贡献模式,也缺乏对PR描述一致性的深入分析。

核心思路:论文的核心思路是通过大规模数据分析,对比Agentic PR和Human PR在代码修改、提交行为和描述一致性等方面的差异。通过量化这些差异,可以更好地理解AI代理在软件开发中的角色和影响。这种对比分析有助于识别AI代理的优势和局限性,为未来的AI代码生成工具的设计和应用提供指导。

技术框架:研究主要分为数据收集和分析两个阶段。首先,从AIDev数据集中筛选出Agentic PR和Human PR。然后,对这些PR进行统计分析,包括代码的增加、删除、提交次数、修改文件数量等。此外,使用词汇和语义相似度方法评估PR描述与其代码差异之间的一致性。最后,使用Cliff's delta等统计指标量化不同PR类型之间的差异。

关键创新:本研究的关键创新在于对AI代码生成代理的贡献进行了大规模的实证分析,并量化了其与人类贡献的差异。通过分析大量的PR数据,揭示了AI代理在代码修改行为上的独特模式。此外,研究还关注了PR描述的一致性,这有助于评估AI代理的解释能力和沟通能力。

关键设计:研究的关键设计包括:1) 使用AIDev数据集,保证了数据的规模和质量;2) 采用多种统计指标,全面评估PR的各个方面;3) 使用词汇和语义相似度方法,评估PR描述的一致性;4) 使用Cliff's delta等效应量指标,量化不同PR类型之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,Agentic PR在提交次数上显著高于人工PR(Cliff's $\delta = 0.5429$),表明AI代理倾向于进行更频繁的提交。在修改文件数量和删除行数方面,Agentic PR与人工PR存在中等差异。此外,Agentic PR在描述与代码差异的相似度方面略高于人工PR,表明AI代理在描述代码变更方面可能更准确。

🎯 应用场景

该研究成果可应用于软件工程领域,帮助开发者更好地理解和利用AI代码生成代理。通过了解AI代理的优势和局限性,可以优化开发流程,提高代码质量和开发效率。此外,该研究还可以为AI代码生成工具的设计和评估提供指导,促进AI在软件开发领域的更广泛应用。未来的研究可以进一步探索AI代理在复杂软件项目中的应用,以及如何提高其代码质量和可解释性。

📄 摘要(原文)

AI coding agents are increasingly acting as autonomous contributors by generating and submitting pull requests (PRs). However, we lack empirical evidence on how these agent-generated PRs differ from human contributions, particularly in how they modify code and describe their changes. Understanding these differences is essential for assessing their reliability and impact on development workflows. Using the MSR 2026 Mining Challenge version of the AIDev dataset, we analyze 24,014 merged Agentic PRs (440,295 commits) and 5,081 merged Human PRs (23,242 commits). We examine additions, deletions, commits, and files touched, and evaluate the consistency between PR descriptions and their diffs using lexical and semantic similarity. Agentic PRs differ substantially from Human PRs in commit count (Cliff's $\delta = 0.5429$) and show moderate differences in files touched and deleted lines. They also exhibit slightly higher description-to-diff similarity across all measures. These findings provide a large-scale empirical characterization of how AI coding agents contribute to open source development.