Large Language Models for IT Automation Tasks: Are We There Yet?

📄 arXiv: 2505.20505v1 📥 PDF

作者: Md Mahadi Hassan, John Salvador, Akond Rahman, Santu Karmaker

分类: cs.CL, cs.SE

发布日期: 2025-05-26

备注: 8 pages


💡 一句话要点

ITAB基准测试揭示大语言模型在IT自动化任务中,特别是Ansible脚本生成方面的局限性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: IT自动化 大型语言模型 Ansible 基准测试 状态协调 自动化运维 代码生成

📋 核心要点

  1. 现有IT自动化任务基准主要依赖合成数据,无法真实反映实际应用场景中状态协调的复杂性。
  2. 提出ITAB基准,包含126个真实IT自动化任务,重点评估LLM在状态协调和模块知识应用方面的能力。
  3. 实验结果表明,现有开源LLM在IT自动化任务中表现不佳,主要问题在于状态推理和领域知识理解不足。

📝 摘要(中文)

大型语言模型(LLMs)在代码生成方面展现出潜力,但它们在IT自动化任务中的有效性,特别是对于像Ansible这样的工具,仍然缺乏研究。现有的基准测试主要依赖于合成任务,无法捕捉到使用IT自动化工具(如Ansible)的从业者的需求。我们提出了ITAB(IT自动化任务基准),一个包含126个多样化任务(例如,配置服务器、管理文件)的基准,其中每个任务都考虑了状态协调:这是IT自动化工具独有的属性。ITAB通过在受控环境中动态执行来评估LLM生成功能性Ansible自动化脚本的能力。我们评估了14个开源LLM,没有一个能够以超过12%的pass@10的比率完成任务。为了解释这些低分,我们分析了评估的LLM中1,411个执行失败案例,并确定了两类主要的语义错误:与状态协调相关的推理失败(变量问题占11.43%,主机问题占11.84%,路径问题占11.63%,模板问题占9.97%,总计44.87%)和模块特定执行知识的不足(属性和参数错误占14.44%,模块错误占9.93%,总计24.37%)。我们的发现揭示了开源LLM在跟踪状态变化和应用专门模块知识方面的关键局限性,表明可靠的IT自动化将需要在状态推理和领域特定执行理解方面取得重大进展。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLMs)在IT自动化任务中的能力,特别是生成Ansible自动化脚本。现有基准测试主要使用合成数据,无法捕捉到实际IT自动化场景中状态协调的复杂性,导致LLMs在真实场景中表现不佳。

核心思路:论文的核心思路是构建一个更贴近实际应用的IT自动化任务基准(ITAB),该基准包含多样化的任务,并着重考察LLMs在状态协调和模块特定知识应用方面的能力。通过在受控环境中动态执行生成的Ansible脚本,可以更准确地评估LLMs的性能。

技术框架:ITAB基准测试包含126个不同的IT自动化任务,例如服务器配置和文件管理。每个任务都要求LLM生成Ansible脚本,这些脚本需要在受控环境中执行。评估过程包括:1) LLM生成Ansible脚本;2) 在受控环境中执行脚本;3) 评估脚本的执行结果,判断是否成功完成任务。论文分析了14个开源LLM在ITAB上的表现。

关键创新:ITAB基准测试的关键创新在于其真实性和对状态协调的关注。与以往的合成基准测试不同,ITAB的任务更贴近实际IT自动化场景,并且每个任务都要求LLM能够正确处理状态变化。此外,ITAB还关注LLM对Ansible模块特定知识的掌握程度。

关键设计:ITAB基准测试的关键设计包括任务的多样性、状态协调的要求以及动态执行的评估方法。任务的多样性确保了基准测试的覆盖范围,状态协调的要求突出了IT自动化的独特性,动态执行的评估方法则保证了评估的准确性。论文使用了pass@10作为评估指标,即在生成的10个脚本中至少有一个成功执行的概率。

📊 实验亮点

实验结果表明,14个开源LLM在ITAB基准测试上的pass@10指标均未超过12%,表明现有开源LLM在IT自动化任务中表现不佳。错误分析显示,主要问题在于状态协调相关的推理失败(44.87%)和模块特定执行知识的不足(24.37%)。

🎯 应用场景

该研究成果可应用于评估和改进LLM在IT自动化领域的应用能力,推动自动化运维技术的发展。通过更准确地评估LLM在实际场景中的性能,可以指导LLM的训练和优化,使其更好地服务于IT自动化任务,提高运维效率,降低运维成本。

📄 摘要(原文)

LLMs show promise in code generation, yet their effectiveness for IT automation tasks, particularly for tools like Ansible, remains understudied. Existing benchmarks rely primarily on synthetic tasks that fail to capture the needs of practitioners who use IT automation tools, such as Ansible. We present ITAB (IT Automation Task Benchmark), a benchmark of 126 diverse tasks (e.g., configuring servers, managing files) where each task accounts for state reconciliation: a property unique to IT automation tools. ITAB evaluates LLMs' ability to generate functional Ansible automation scripts via dynamic execution in controlled environments. We evaluate 14 open-source LLMs, none of which accomplish pass@10 at a rate beyond 12%. To explain these low scores, we analyze 1,411 execution failures across the evaluated LLMs and identify two main categories of prevalent semantic errors: failures in state reconciliation related reasoning (44.87% combined from variable (11.43%), host (11.84%), path(11.63%), and template (9.97%) issues) and deficiencies in module-specific execution knowledge (24.37% combined from Attribute and parameter (14.44%) and module (9.93%) errors). Our findings reveal key limitations in open-source LLMs' ability to track state changes and apply specialized module knowledge, indicating that reliable IT automation will require major advances in state reasoning and domain-specific execution understanding.