Multi-IaC-Eval: Benchmarking Cloud Infrastructure as Code Across Multiple Formats

作者: Sam Davidson, Li Sun, Bhavana Bhasker, Laurent Callot, Anoop Deoras

分类: cs.DC, cs.AI

发布日期: 2025-08-21

💡 一句话要点

提出Multi-IaC-Eval基准，评估LLM在多IaC格式上的代码生成与修改能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 基础设施即代码 大型语言模型 基准数据集 云基础设施 代码生成 代码修改 AWS CloudFormation Terraform

📋 核心要点

现有IaC方案缺乏统一标准，云架构师需掌握多种格式，增加了云部署的复杂性，且缺乏多IaC格式的综合评估基准。
提出Multi-IaC-Bench基准数据集，包含AWS CloudFormation、Terraform和CDK三种格式，用于评估LLM的IaC生成和修改能力。
实验表明，LLM在语法正确性上表现出色，但语义对齐和处理复杂基础设施模式仍面临挑战，提示工程和重试机制至关重要。

📝 摘要（中文）

基础设施即代码(IaC)是现代云计算的基础，它允许团队通过机器可读的配置文件来定义和管理基础设施。然而，不同的云服务提供商使用不同的IaC格式。缺乏标准化格式要求云架构师精通多种IaC语言，增加了云部署的复杂性。虽然大型语言模型(LLM)在自动化IaC创建和维护方面显示出前景，但由于缺乏跨多种IaC格式的综合基准，进展受到限制。我们提出了Multi-IaC-Bench，这是一个新颖的基准数据集，用于评估基于LLM的IaC在AWS CloudFormation、Terraform和Cloud Development Kit (CDK)格式上的生成和修改能力。该数据集包含三元组，包括初始IaC模板、自然语言修改请求和相应的更新模板，这些模板通过严格验证的合成数据生成管道创建。我们评估了Multi-IaC-Bench上的几个最先进的LLM，表明虽然现代LLM可以在跨格式生成语法上有效的IaC方面实现高成功率(>95%)，但在语义对齐和处理复杂的基础设施模式方面仍然存在重大挑战。我们的消融研究强调了提示工程和重试机制在成功生成IaC中的重要性。我们发布Multi-IaC-Bench，以促进人工智能辅助基础设施管理方面的进一步研究，并为这个关键领域建立标准化的评估指标。

🔬 方法详解

问题定义：论文旨在解决缺乏统一的IaC标准以及缺乏多IaC格式的综合评估基准的问题。现有方法需要云架构师掌握多种IaC语言，增加了部署复杂性。同时，缺乏有效的基准数据集来评估LLM在不同IaC格式上的生成和修改能力，阻碍了AI在IaC领域的应用。

核心思路：论文的核心思路是构建一个包含多种IaC格式（AWS CloudFormation、Terraform和CDK）的基准数据集Multi-IaC-Bench，用于评估LLM在IaC生成和修改任务中的性能。通过提供包含初始IaC模板、自然语言修改请求和更新模板的三元组，可以系统地评估LLM的语义理解和代码生成能力。这样设计的目的是为了促进AI在IaC领域的应用，并为该领域建立标准化的评估指标。

技术框架：Multi-IaC-Bench的构建流程主要包括以下几个阶段：1) 定义IaC模板的结构和属性；2) 生成初始IaC模板；3) 基于初始模板生成自然语言修改请求；4) 根据修改请求生成更新后的IaC模板；5) 对生成的数据进行严格的验证，确保其语法正确性和语义一致性。整个流程旨在生成高质量、多样化的数据集，以全面评估LLM的IaC生成和修改能力。

关键创新：该论文的关键创新在于构建了一个包含多种IaC格式的综合性基准数据集Multi-IaC-Bench。与现有方法相比，该数据集不仅覆盖了多种流行的IaC格式，还提供了自然语言修改请求，更贴近实际应用场景。此外，论文还对生成的数据进行了严格的验证，确保了数据的质量和可靠性。

关键设计：在数据生成过程中，论文采用了合成数据生成管道，并对生成的数据进行了多轮验证。验证过程包括语法检查、语义一致性检查和人工审核等。此外，论文还设计了多种类型的自然语言修改请求，包括添加资源、修改属性、删除资源等，以覆盖不同的IaC修改场景。在评估LLM性能时，论文采用了多种评估指标，包括语法正确率、语义相似度和功能正确率等。

📊 实验亮点

实验结果表明，现代LLM在生成语法正确的IaC代码方面表现出色，成功率超过95%。然而，在语义对齐和处理复杂基础设施模式方面仍存在挑战。消融研究表明，提示工程和重试机制对于成功生成IaC代码至关重要。

🎯 应用场景

该研究成果可应用于自动化云基础设施管理、AI辅助的IaC代码生成与维护、以及云服务提供商的IaC工具优化。Multi-IaC-Bench基准数据集能够促进LLM在IaC领域的应用，降低云部署的复杂性，并提高云基础设施管理的效率。

📄 摘要（原文）

Infrastructure as Code (IaC) is fundamental to modern cloud computing, enabling teams to define and manage infrastructure through machine-readable configuration files. However, different cloud service providers utilize diverse IaC formats. The lack of a standardized format requires cloud architects to be proficient in multiple IaC languages, adding complexity to cloud deployment. While Large Language Models (LLMs) show promise in automating IaC creation and maintenance, progress has been limited by the lack of comprehensive benchmarks across multiple IaC formats. We present Multi-IaC-Bench, a novel benchmark dataset for evaluating LLM-based IaC generation and mutation across AWS CloudFormation, Terraform, and Cloud Development Kit (CDK) formats. The dataset consists of triplets containing initial IaC templates, natural language modification requests, and corresponding updated templates, created through a synthetic data generation pipeline with rigorous validation. We evaluate several state-of-the-art LLMs on Multi-IaC-Bench, demonstrating that while modern LLMs can achieve high success rates (>95%) in generating syntactically valid IaC across formats, significant challenges remain in semantic alignment and handling complex infrastructure patterns. Our ablation studies highlight the importance of prompt engineering and retry mechanisms in successful IaC generation. We release Multi-IaC-Bench to facilitate further research in AI-assisted infrastructure management and establish standardized evaluation metrics for this crucial domain.