Ambig-IaC: Multi-level Disambiguation for Interactive Cloud Infrastructure-as-Code Synthesis

📄 arXiv: 2604.02382 📥 PDF

作者: Zhenning Yang, Kaden Gruizenga, Tongyuan Miao, Patrick Tser Jern Kon, Hui Guan, Ang Chen

分类: cs.SE, cs.AI

发布日期: 2026-04-06


💡 一句话要点

提出Ambig-IaC以解决云基础设施代码生成中的歧义问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 基础设施即代码 云计算 大型语言模型 代码生成 用户需求澄清 分歧识别 自动化配置管理

📋 核心要点

  1. 现有方法在处理云基础设施代码生成时,用户请求常常不够明确,导致生成的配置存在歧义。
  2. 本文提出了一种无训练的框架,通过生成多样化候选规范并识别结构性分歧,来逐步澄清用户需求。
  3. 实验结果表明,所提方法在结构和属性评估上分别提升了18.4%和25.4%,显著优于现有基线。

📝 摘要(中文)

现代云基础设施的规模和复杂性使得基础设施即代码(IaC)在管理部署中变得至关重要。尽管大型语言模型(LLMs)越来越多地用于从自然语言生成IaC配置,但用户请求往往不够明确。与传统代码生成不同,IaC配置无法便宜地执行或迭代修复,迫使LLMs进入几乎一次性生成的状态。本文提出了一种无训练、基于分歧的框架,生成多样化的候选规范,识别这些规范在资源、拓扑和属性三个层次上的结构性分歧,并通过信息量对其进行排序,进而提出针对性的澄清问题,逐步缩小配置空间。我们引入了Ambig-IaC,一个包含300个经过验证的模糊提示的IaC任务基准,以及基于图编辑距离和嵌入相似性的评估框架。我们的算法在结构和属性评估上相较于最强基线分别提高了18.4%和25.4%。

🔬 方法详解

问题定义:本文旨在解决云基础设施代码生成中的歧义问题,现有方法在处理用户模糊请求时,往往无法有效生成准确的IaC配置,导致生成结果的可用性降低。

核心思路:提出了一种基于分歧的框架,通过生成多样化的候选规范,识别并分析不同层次(资源、拓扑、属性)之间的结构性分歧,从而提出针对性的澄清问题,帮助用户明确需求。

技术框架:整体框架包括候选规范生成、结构性分歧识别、信息量排序和澄清问题生成四个主要模块。首先生成多个候选规范,然后识别其在不同层次上的分歧,接着根据信息量对这些分歧进行排序,最后生成针对性的澄清问题。

关键创新:最重要的创新在于提出了无训练的分歧驱动框架,能够有效识别和利用IaC配置中的层次结构,进而生成更为准确的配置建议。这一方法与传统的单一生成模型有本质区别。

关键设计:在设计中,采用了信息量作为排序标准,确保生成的澄清问题能够最大程度地缩小配置空间。此外,框架的模块化设计使得各个部分能够独立优化,提高了整体效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,所提出的Ambig-IaC方法在结构和属性评估上分别相较于最强基线提高了18.4%和25.4%。这一显著提升证明了该方法在处理模糊用户请求时的有效性和优越性。

🎯 应用场景

该研究在云计算和DevOps领域具有广泛的应用潜力,能够帮助开发者更高效地生成和管理基础设施代码。通过减少用户与系统之间的歧义,提升了IaC的生成质量,未来可扩展至更多自动化配置管理工具中,推动云基础设施的智能化发展。

📄 摘要(原文)

The scale and complexity of modern cloud infrastructure have made Infrastructure-as-Code (IaC) essential for managing deployments. While large Language models (LLMs) are increasingly being used to generate IaC configurations from natural language, user requests are often underspecified. Unlike traditional code generation, IaC configurations cannot be executed cheaply or iteratively repaired, forcing the LLMs into an almost one-shot regime. We observe that ambiguity in IaC exhibits a tractable compositional structure: configurations decompose into three hierarchical axes (resources, topology, attributes) where higher-level decisions constrain lower-level ones. We propose a training-free, disagreement-driven framework that generates diverse candidate specifications, identifies structural disagreements across these axes, ranks them by informativeness, and produces targeted clarification questions that progressively narrow the configuration space. We introduce \textsc{Ambig-IaC}, a benchmark of 300 validated IaC tasks with ambiguous prompts, and an evaluation framework based on graph edit distance and embedding similarity. Our method outperforms the strongest baseline, achieving relative improvements of +18.4\% and +25.4\% on structure and attribute evaluations, respectively.