Code Readability in the Age of Large Language Models: An Industrial Case Study from Atlassian

📄 arXiv: 2501.11264v3 📥 PDF

作者: Wannita Takerngsaksiri, Chakkrit Tantithamthavorn, Micheal Fu, Jirat Pasuksmit, Kun Chen, Ming Wu

分类: cs.SE, cs.AI, cs.CL

发布日期: 2025-01-20 (更新: 2025-07-18)

备注: 11 pages, 7 figures, 8 tables, Accepted at ICSME


💡 一句话要点

评估LLM生成代码可读性:Atlassian工业案例研究揭示其重要性与可接受度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 代码可读性 大型语言模型 软件开发 工业案例研究 LLM生成代码

📋 核心要点

  1. 大型语言模型(LLMs)的出现改变了软件开发模式,但LLM生成代码的可读性问题亟待研究,以确保其可维护性和可理解性。
  2. 该研究通过调查从业者对LLM生成代码可读性的看法,并对比LLM生成代码与人工编写代码,评估LLM在实际软件开发中的应用。
  3. 研究结果表明,代码可读性在LLM时代仍然至关重要,并且Atlassian的HULA框架生成的代码具有与人工编写代码相当的可读性。

📝 摘要(中文)

软件工程师在软件开发过程中花费大量时间阅读代码,尤其是在大型语言模型(LLMs)能够自动生成代码的时代。然而,关于LLM生成代码的可读性,以及从业者在新时代是否仍然重视它,我们知之甚少。本文通过一项调查,探讨了从业者对LLM时代代码可读性的看法,并通过将基于LLM的软件开发代理框架HULA生成的代码与真实场景中人工编写的代码进行比较,研究了其可读性。总体而言,研究结果强调:(1)可读性仍然是软件开发的关键方面;(2)LLM生成的代码的可读性与人工编写的代码相当,从而促进了适当信任的建立,并推动了LLM驱动的软件开发平台的广泛采用。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)生成代码的可读性问题。现有方法缺乏对LLM生成代码可读性的系统评估,无法确定其是否满足软件开发的可维护性和可理解性需求。这可能导致开发者对LLM生成代码的信任度降低,从而阻碍其广泛应用。

核心思路:论文的核心思路是通过调查软件工程师对LLM生成代码可读性的看法,并将其与人工编写的代码进行对比,从而评估LLM生成代码的质量。这种方法结合了主观评价和客观比较,能够更全面地了解LLM生成代码的可读性。

技术框架:该研究的技术框架主要包括两个部分:一是调查问卷,用于收集软件工程师对代码可读性的主观评价;二是实验评估,通过对比LLM生成的代码和人工编写的代码,客观评估其可读性。Atlassian的LLM-based软件开发代理框架HULA是实验评估的对象。

关键创新:该研究的关键创新在于将从业者的主观评价与客观的代码比较相结合,从而更全面地评估LLM生成代码的可读性。此外,该研究还关注了LLM在实际软件开发场景中的应用,具有很强的实践意义。

关键设计:调查问卷的设计需要确保能够准确反映软件工程师对代码可读性的看法。实验评估需要选择合适的代码可读性指标,并采用合理的实验方法,以确保评估结果的可靠性。具体的指标和方法在论文中可能有所描述,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究表明,代码可读性在LLM时代仍然至关重要。更重要的是,Atlassian的HULA框架生成的代码具有与人工编写代码相当的可读性。这一发现有助于建立对LLM生成代码的信任,并促进LLM驱动的软件开发平台的广泛采用。具体的性能数据和对比基线在摘要中未提及。

🎯 应用场景

该研究成果可应用于软件开发领域,帮助开发者更好地理解和评估LLM生成代码的质量,从而提高软件开发效率和代码质量。此外,该研究还可以为LLM的训练提供反馈,使其生成更易于理解和维护的代码。该研究结果有助于推动LLM在软件开发领域的广泛应用。

📄 摘要(原文)

Software engineers spend a significant amount of time reading code during the software development process, especially in the age of large language models (LLMs) that can automatically generate code. However, little is known about the readability of the LLM-generated code and whether it is still important from practitioners' perspectives in this new era. In this paper, we conduct a survey to explore the practitioners' perspectives on code readability in the age of LLMs and investigate the readability of our LLM-based software development agents framework, HULA, by comparing its generated code with human-written code in real-world scenarios. Overall, the findings underscore that (1) readability remains a critical aspect of software development; (2) the readability of our LLM-generated code is comparable to human-written code, fostering the establishment of appropriate trust and driving the broad adoption of our LLM-powered software development platform.