Evaluating LLM-Based 0-to-1 Software Generation in End-to-End CLI Tool Scenarios

作者: Ruida Hu, Xinchen Wang, Chao Peng, Cuiyun Gao, David Lo

分类: cs.SE, cs.AI

发布日期: 2026-04-08

💡 一句话要点

提出CLI-Tool-Bench基准，评估LLM在端到端CLI工具生成中的能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 软件生成 命令行工具 基准测试 黑盒测试

📋 核心要点

现有基准测试在评估LLM从零开始构建完整软件的能力方面存在不足，主要体现在对预定义结构和白盒测试的依赖。
论文提出CLI-Tool-Bench基准，通过黑盒差异测试评估LLM生成的CLI工具，关注端到端行为和系统副作用。
实验结果表明，即使是最先进的LLM在CLI工具的从0到1生成任务中成功率也较低，且高token消耗不保证高性能。

📝 摘要（中文）

大型语言模型（LLMs）正推动向意图驱动开发转变，其中智能体从零开始构建完整的软件。然而，现有的基准由于两个局限性而未能评估这种从0到1的生成能力：依赖于忽略存储库结构规划的预定义支架，以及缺乏端到端行为验证的刚性白盒单元测试。为了弥合这一差距，我们引入了CLI-Tool-Bench，这是一个与结构无关的基准，用于评估命令行界面（CLI）工具的从头生成。它包含100个不同的真实世界存储库，通过黑盒差异测试框架进行评估。在沙箱中执行智能体生成的软件，使用多层等价性指标将系统副作用和终端输出与人工编写的oracle进行比较。通过评估七个最先进的LLM，我们发现顶级模型的成功率低于43%，突显了从0到1生成的持续挑战。此外，更高的token消耗并不能保证更好的性能，并且智能体倾向于生成单体代码。

🔬 方法详解

问题定义：现有评估LLM生成软件的基准测试存在两个主要痛点。一是依赖预定义的项目结构，忽略了LLM规划软件仓库结构的能力。二是采用白盒单元测试，缺乏对软件端到端行为的验证，无法全面评估软件的实际功能。

核心思路：为了解决上述问题，论文提出了CLI-Tool-Bench基准测试。核心思路是设计一个结构无关的评估框架，允许LLM从零开始生成完整的CLI工具，并采用黑盒差异测试来验证生成的软件是否符合预期行为。这种方法更贴近实际的软件开发场景，能够更全面地评估LLM的软件生成能力。

技术框架：CLI-Tool-Bench包含以下主要组成部分：1) 100个真实世界的CLI工具仓库作为评估对象；2) 一个沙箱环境，用于安全地执行LLM生成的软件；3) 一个黑盒差异测试框架，通过比较LLM生成软件和人工编写的oracle在系统副作用和终端输出方面的差异来评估其性能；4) 多层等价性指标，用于量化LLM生成软件与oracle之间的相似度。

关键创新：CLI-Tool-Bench的关键创新在于其结构无关的评估方式和黑盒差异测试框架。与现有基准测试不同，CLI-Tool-Bench不预设任何项目结构，允许LLM自由地规划软件仓库。此外，黑盒差异测试能够更全面地评估软件的实际功能，避免了白盒单元测试的局限性。

关键设计：CLI-Tool-Bench的关键设计包括：1) 选择了100个真实世界的CLI工具仓库，保证了评估的实用性；2) 采用了沙箱环境，确保了评估的安全性；3) 设计了多层等价性指标，包括精确匹配、语义匹配和行为匹配，从而更全面地评估软件的性能；4) 评估了七个最先进的LLM，包括GPT-4、Claude等，从而获得了具有代表性的实验结果。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是最先进的LLM（如GPT-4）在CLI-Tool-Bench上的成功率也低于43%，表明LLM在从0到1的软件生成方面仍面临挑战。此外，研究发现更高的token消耗并不一定带来更好的性能，且LLM倾向于生成单体代码，这些发现为未来的研究方向提供了重要启示。

🎯 应用场景

该研究成果可应用于评估和改进LLM在软件生成领域的性能，推动意图驱动的软件开发模式。通过CLI-Tool-Bench，可以更有效地评估LLM生成复杂软件的能力，并指导LLM的训练和优化，最终实现自动化软件开发，降低开发成本，提高开发效率。

📄 摘要（原文）

Large Language Models (LLMs) are driving a shift towards intent-driven development, where agents build complete software from scratch. However, existing benchmarks fail to assess this 0-to-1 generation capability due to two limitations: reliance on predefined scaffolds that ignore repository structure planning, and rigid white-box unit testing that lacks end-to-end behavioral validation. To bridge this gap, we introduce CLI-Tool-Bench, a structure-agnostic benchmark for evaluating the ground-up generation of Command-Line Interface (CLI) tools. It features 100 diverse real-world repositories evaluated via a black-box differential testing framework. Agent-generated software is executed in sandboxes, comparing system side effects and terminal outputs against human-written oracles using multi-tiered equivalence metrics. Evaluating seven state-of-the-art LLMs, we reveal that top models achieve under 43% success, highlighting the ongoing challenge of 0-to-1 generation. Furthermore, higher token consumption does not guarantee better performance, and agents tend to generate monolithic code.

Evaluating LLM-Based 0-to-1 Software Generation in End-to-End CLI Tool Scenarios

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理