Evaluating LLM-Based 0-to-1 Software Generation in End-to-End CLI Tool Scenarios

📄 arXiv: 2604.06742v1 📥 PDF

作者: Ruida Hu, Xinchen Wang, Chao Peng, Cuiyun Gao, David Lo

分类: cs.SE, cs.AI

发布日期: 2026-04-08


💡 一句话要点

提出CLI-Tool-Bench基准,评估LLM在端到端CLI工具生成中的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 软件生成 命令行工具 基准测试 黑盒测试

📋 核心要点

  1. 现有基准测试在评估LLM从零开始构建完整软件的能力方面存在不足,主要体现在对预定义结构和白盒测试的依赖。
  2. 论文提出CLI-Tool-Bench基准,通过黑盒差异测试评估LLM生成的CLI工具,关注端到端行为和系统副作用。
  3. 实验结果表明,即使是最先进的LLM在CLI工具的从0到1生成任务中成功率也较低,且高token消耗不保证高性能。

📝 摘要(中文)

大型语言模型(LLMs)正推动向意图驱动开发转变,其中智能体从零开始构建完整的软件。然而,现有的基准由于两个局限性而未能评估这种从0到1的生成能力:依赖于忽略存储库结构规划的预定义支架,以及缺乏端到端行为验证的刚性白盒单元测试。为了弥合这一差距,我们引入了CLI-Tool-Bench,这是一个与结构无关的基准,用于评估命令行界面(CLI)工具的从头生成。它包含100个不同的真实世界存储库,通过黑盒差异测试框架进行评估。在沙箱中执行智能体生成的软件,使用多层等价性指标将系统副作用和终端输出与人工编写的oracle进行比较。通过评估七个最先进的LLM,我们发现顶级模型的成功率低于43%,突显了从0到1生成的持续挑战。此外,更高的token消耗并不能保证更好的性能,并且智能体倾向于生成单体代码。

🔬 方法详解

问题定义:现有评估LLM生成软件的基准测试存在两个主要痛点。一是依赖预定义的项目结构,忽略了LLM规划软件仓库结构的能力。二是采用白盒单元测试,缺乏对软件端到端行为的验证,无法全面评估软件的实际功能。

核心思路:为了解决上述问题,论文提出了CLI-Tool-Bench基准测试。核心思路是设计一个结构无关的评估框架,允许LLM从零开始生成完整的CLI工具,并采用黑盒差异测试来验证生成的软件是否符合预期行为。这种方法更贴近实际的软件开发场景,能够更全面地评估LLM的软件生成能力。

技术框架:CLI-Tool-Bench包含以下主要组成部分:1) 100个真实世界的CLI工具仓库作为评估对象;2) 一个沙箱环境,用于安全地执行LLM生成的软件;3) 一个黑盒差异测试框架,通过比较LLM生成软件和人工编写的oracle在系统副作用和终端输出方面的差异来评估其性能;4) 多层等价性指标,用于量化LLM生成软件与oracle之间的相似度。

关键创新:CLI-Tool-Bench的关键创新在于其结构无关的评估方式和黑盒差异测试框架。与现有基准测试不同,CLI-Tool-Bench不预设任何项目结构,允许LLM自由地规划软件仓库。此外,黑盒差异测试能够更全面地评估软件的实际功能,避免了白盒单元测试的局限性。

关键设计:CLI-Tool-Bench的关键设计包括:1) 选择了100个真实世界的CLI工具仓库,保证了评估的实用性;2) 采用了沙箱环境,确保了评估的安全性;3) 设计了多层等价性指标,包括精确匹配、语义匹配和行为匹配,从而更全面地评估软件的性能;4) 评估了七个最先进的LLM,包括GPT-4、Claude等,从而获得了具有代表性的实验结果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是最先进的LLM(如GPT-4)在CLI-Tool-Bench上的成功率也低于43%,表明LLM在从0到1的软件生成方面仍面临挑战。此外,研究发现更高的token消耗并不一定带来更好的性能,且LLM倾向于生成单体代码,这些发现为未来的研究方向提供了重要启示。

🎯 应用场景

该研究成果可应用于评估和改进LLM在软件生成领域的性能,推动意图驱动的软件开发模式。通过CLI-Tool-Bench,可以更有效地评估LLM生成复杂软件的能力,并指导LLM的训练和优化,最终实现自动化软件开发,降低开发成本,提高开发效率。

📄 摘要(原文)

Large Language Models (LLMs) are driving a shift towards intent-driven development, where agents build complete software from scratch. However, existing benchmarks fail to assess this 0-to-1 generation capability due to two limitations: reliance on predefined scaffolds that ignore repository structure planning, and rigid white-box unit testing that lacks end-to-end behavioral validation. To bridge this gap, we introduce CLI-Tool-Bench, a structure-agnostic benchmark for evaluating the ground-up generation of Command-Line Interface (CLI) tools. It features 100 diverse real-world repositories evaluated via a black-box differential testing framework. Agent-generated software is executed in sandboxes, comparing system side effects and terminal outputs against human-written oracles using multi-tiered equivalence metrics. Evaluating seven state-of-the-art LLMs, we reveal that top models achieve under 43% success, highlighting the ongoing challenge of 0-to-1 generation. Furthermore, higher token consumption does not guarantee better performance, and agents tend to generate monolithic code.